Estadística II by Alexander Fuentes Morales

ESTADÍSTICA II PRIMERA EDICIÓN

INSTITUTO TECNOLÓGICO SUPERIOR DE COATZACOALCOS CARRERA

INGENIERÍA EN ADMINISTRACIÓN MATERIA

ESTADÍSTICA DOCENTE

LÓPEZ DE LOS SANTOS EDUARDO TRABAJO

PORTAFOLIO DE EVIDENCIAS ALUMNA

ORTIZ MEDINA TANIA GUADALUPE GRADO Y GRUPO

4° “A”

11 DE JUNIO DE 2014

CONTENIDO INTRODUCCIÓN A LA MATERIA .................................................................................................... 9 DATOS DE LA ASIGNATURA.............................................................................................................. 11 UNIDAD 1. PRUEBAS DE HIPÓTESIS. ............................................................................................. 21 PRUEBAS DE HIPÓTESIS. .................................................................................................................. 23 ACTIVIDADES DE LA UNIDAD 1 ........................................................................................................ 49 ACTIVIDAD 1. PLANTEAMIENTOS DE H0 Y H1 ......................................................................... 51 ACTIVIDAD 2. PROBLEMAS (OPCIÓN DE SOLUCION 1 DE 2). ............................................. 53 ACTIVIDAD 3. PROBLEMAS DE HIPOTESIS .............................................................................. 55 ACTIVIDAD 4. INSTALACIÓN DE SOFTWARE ESTADISTICO. .............................................. 57 ACTIVIDAD 5. PRESENTACIÓN DE SOFTWARE POR EQUIPO. ........................................... 58 ACTIVIDAD 6. EJERCICIO POR EQUIPO. ................................................................................... 70 ACTIVIDAD 7. MAS EJERCICIOS DE CLASES. .......................................................................... 71 ACTIVIDAD 8. DESARROLLAR TEMA 1.7 .................................................................................... 73 ACTIVIDAD 9. ELABORACIÓN DE MAPAS EN XMIND. ............................................................ 86 EVALUACIÓN DE LA UNIDAD 1 ..................................................................................................... 88 UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. ............... 90 PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. .................................... 91 ACTIVIDADES DE LA UNIDAD 2 ...................................................................................................... 113 ACTIVIDAD 1. COMPLETAR TEMA FALTANTE DE LA UNIDAD ........................................... 115 ACTIVIDAD 2. FINALIDAD DE LOS TEMAS DE LA U2. ........................................................... 125 ACTIVIDAD 3. MAPAS EN XMIND DE CHI-CUADRADA Y ANÁLISIS DE VARIANZA ....... 130 ACTIVIDAD 4. ENSAYO SOBRE CHI-CUADRADO .................................................................. 132 EXPOSICIÓN (02-ABRIL-2014) MÉTODO DENTRO Y MÉTODO ENTRE ........................... 134 UNIDAD 3. ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MULTIPLE. ... 137 ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MULTIPLE. ........................ 138 ACTIVIDADES DE LA UNIDAD 3.. .................................................................................................... 153 ACTIVIDAD 1. EJEMPLOS, GRÁFICAS DE CORRELACIÓN ................................................ 155 ACTIVIDAD 2. 2 EJERCICIOS CON GRÁFICAS DE DISPERSIÓN ...................................... 157 ACTIVIDAD 3. ECUACIÓN QUE RELACIONE VARIABLES CONOCIDAS CON DESCONOCIDAS............................................................................................................................. 159

ACTIVIDAD 4. INVESTIGACIÓN DE TEMAS PENDIENTES DE LA U3. POR EQUIPO ..... 170 EXPOSICIÓN EN EQUIPO ............................................................................................................. 192 UNIDAD 4. SERIES DE TIEMPO. ..................................................................................................... 197 SERIES DE TIEMPO. .......................................................................................................................... 199 ACTIVIDADES DE LA UNIDAD 4. ..................................................................................................... 214 ACTIVIDAD 1. INVESTIGAR LOS COMPONENTES DE UNA SERIE TEMPORAL ............ 215 ACTIVIDAD 2. INV. 2 EJEMPLOS PRACTICOS DE PRONOSTICOS EN UN PAQUETE DE DATOS. .............................................................................................................................................. 227 ACTIVIDAD 3. REALICE UN DIAGRAMA MULTIMEDIA EN XMIND DEL TEMA 4.2 ......... 239 ACTIVIDAD 4. VIDEO DEL TEMA 4.1 .......................................................................................... 240 UNIDAD 5. ESTADÍSTICA NO PARAMÉTRICA. ............................................................................ 241 ESTADÍSTICA NO PARAMÉTRICA. ................................................................................................. 243 ACTIVIDADES DE LA UNIDAD 5 ...................................................................................................... 249 ACTIVIDAD 1. CITAR VENTAJAS Y DESVENTAJAS DE UTILIZAR METODOS NO PARAMETRICOS. ............................................................................................................................ 251 ACTIVIDAD 2. 3 EJEMPLOS DE LA PRUEBA DE SIGNOS .................................................... 254 ACTIVIDAD 3. INVESTIGAR EN QUE CONSISTE LA PRUEBA DE CORRIDAS ................ 259 ACTIVIDAD 4. REALIZAR 3 EJEMPLOS PRACTICOS DE PRUEBA DE SIGNOS Y WILCOXON PARA OBSERVACIONES PAREADAS ................................................................. 271 ACTIVIDAD 5. DIAGRAMA EN XMIND DE LA PRUEBA DE KRUSKAL WALLIS ................ 277

CONCLUSIÓN DE LA MATERIA .................................................................................................. 278

INTRODUCCIÓN A LA MATERIA

La estadística que desarrollamos este semestre es la inferencial la cual es una parte de la estadística que comprende los métodos y procedimientos que por medio de la inducción

determina

propiedades

una población

estadística,

partir

una pequeña parte de la misma. La estadística inferencial comprende como aspectos importantes: 

La toma de muestras o muestreo.



La estimación de parámetros o variables estadísticas.



El contraste de hipótesis.



El diseño experimental.



Inferencias.



Los métodos no paramétricos

La Estadística inferencial o Inferencia estadística estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos. Este semestre con la Estadistica II, vemos como existen distintos tipos y métodos a seguir para obtener informacion con relacion a cierto numero de poblaciones.

5 unidades mostrando información y evidencias de todos esos metodos y formas de utilizar la estadistica inferencial.

1.- DATOS DE LA ASIGNATURA Nombre de la asignatura:

Estadística II

Carrera:

Ingeniería en Administración

Clave de la asignatura:

ADD-1021

(Créditos) SATCA

2–3–5

2.- PRESENTACIÓN Caracterización de la asignatura. Esta asignatura, aporta al perfil de la Ingeniería en Administración, las herramientas técnicas y metodológicas, para sensibilizar la toma de decisiones estadísticas y profesionales en las áreas funcionales de negocios propios de la carrera, esto es, la aplicación en la gestión empresarial, la interpretación de resultados, la presentación de suposiciones, la evaluación de las suposiciones y la discusión acerca de lo que debería de hacerse si las suposiciones son infringidas en la administración de la calidad y productividad. De igual manera induce el uso de modelos para hacer mejores pronósticos de la variable dependiente en el amplio mundo de los negocios. Intención didáctica Se organiza el temario, agrupando contenidos conceptuales de la asignatura en 5 unidades. En la primera unidad se destaca la importancia conceptual que tienen los errores de tipo I y II, en la estructura básica de las pruebas de hipótesis, así mismo la metodología de la prueba de hipótesis: con una muestra, tanto para la media y para la proporción; sobre la diferencia de dos medias y la diferencia de proporciones y sobre dos muestras pareadas, donde aplica la función de densidad de probabilidad Normal para muestras pequeñas y grandes, con varianza conocida y desconocida.

En la segunda unidad, se conceptualiza la metodología de la prueba de hipótesis de dos procesos medidos, ya sea por la Pruebas de la bondad del ajuste y análisis de varianza; en la primera las pruebas de independencia, de bondad de ajuste y el uso de tablas de contingencia, mediante la función de densidades de probabilidad de la Ji-cuadrada. En la segunda, como su nombre lo indica, el propósito del procedimiento de análisis de varianza es analizar la variabilidad de la respuesta y asignar componentes de esa variabilidad a cada uno de los conjuntos de variables independientes e infiriendo sobre una y dos varianzas

Sistema de asignación y transferencia de créditos académicos

poblacionales. La función de densidad de probabilidad, que aplica a esta metodología estadística, es la distribución de Fisher. En la tercera unidad se abordan los temas de análisis de regresión, correlación lineal simple y múltiple en donde se analizan conceptos, supuestos, determinación de la ecuación de regresión lineal simple y múltiple, medidas de variación, cálculo de coeficientes de correlación, análisis residual, estimación de la ecuación, matriz de varianza y covarianza, pruebas de hipótesis para los coeficientes de regresión así como la correlación lineal múltiple, buscando práctica y ejercicios de aplicación, donde se recomienda el uso de paquetes estadísticos. En la cuarta unidad se completa la información con temas como: análisis de series de tiempo, componentes, análisis de los métodos de mínimos cuadrados, promedios móviles y suavización exponencial, posteriormente se realizarán análisis de tendencias no lineales, variación estacional y se buscarán ejemplos prácticos de aplicación de las técnicas analíticas de las series de tiempos en negocios, en problemas de investigación de mercado y en los estudios de control de calidad. En la quinta y última unidad se aprenderá las ventajas y desventajas de utilizar las estadística no paramétricas así como utilizar los mejores criterios de selección para resolver problemas relativos a la Ingeniería en Administración y tomar mejores decisiones; considerando que las escalas de medición nominal y ordinal se usan para generar datos para determinar sí es adecuado un método no paramétrico, ya que en estos resultan inapropiados calcular medidas descriptivas de centralización y dispersión. Los métodos no paramétricos tienen aplicación más general, que los paramétricos, porque tienen requisitos menos restrictivos sobre medición de datos, y por la menor cantidad de supuestos necesarios acerca de la distribución de la población. En este apartado se desarrollaran las metodologías de la prueba de signo, la de Wilcoxon de rango con signo, la de Mann-Whitney y la de Kruskal-Wallis. En el transcurso de las actividades programadas es muy importante que el estudiante aprenda a valorar las actividades que lleva a cabo y entienda que está construyendo su hacer futuro y en consecuencia actúe de una manera profesional; de igual manera, aprecie la importancia del conocimiento y los hábitos de trabajo; desarrolle la precisión y la curiosidad, la puntualidad, el entusiasmo y el interés, la tenacidad, la flexibilidad y la autonomía. 3.- COMPETENCIAS A DESARROLLAR Competencias específicas Competencias genéricas Aplicar las herramientas básicas que provee Competencias instrumentales la estadística inferencial, para recoger, síntesis procesar, analizar, presentar información y garantizar un control estricto de todo proceso de producción de bienes y servicios.

y escrita Habilidades básicas de manejo de la computadora Habilidad para buscar y analizar información proveniente de fuentes diversas

Competencias interpersonales

Trabajo en equipo Competencias sistémicas Capacidad de aplicar los conocimientos en la práctica

Capacidad de generar nuevas ideas (creatividad) Habilidad para trabajar en forma autónoma

4.- HISTORIA DEL PROGRAMA Lugar y fecha de Participantes elaboración o revisión

Observaciones (cambios y justificación)

Instituto Tecnológico del Durango, Chihuahua, Nuevo Laredo y Valle de Morelia.

Compromisos generados para la Reunión Nacional de de Consolidación de la Carrera de Ingeniería en Administración, adquiridos en Toluca.

Febrero- Abril del 2010

Representantes de los Institutos Tecnológicos de Durango, Chihuahua, Nuevo Laredo y Valle de Morelia.

5.- OBJETIVO(S) GENERAL(ES) DEL CURSO (competencia específica a desarrollar en el curso) Aplicar las herramientas básicas que provee la estadística inferencial, para recoger, procesar, analizar, presentar información y garantizar un control estricto de todo proceso de producción de bienes y servicios. 6.- COMPETENCIAS PREVIAS Analiza y aplica conceptos y técnicas de la probabilidad y estadística descriptiva e inferencial en la solución de problemas en áreas de su competencia. Dominio de las distribuciones de frecuencia. Dominio de las medidas de tendencia central y de dispersión en la muestra y la población. Dominio de estimaciones inferenciales. Dominio de la hoja de cálculo. Maneje con propiedad operaciones de algebra básica Identificar y usar correctamente los conectivos relacionales de la estadística inferencial Uso de graficadores Excel Uso del complemento análisis de datos Excel. Actitud proactiva. Trabajo en equipo

7.- TEMARIO Unidad

Temas

Pruebas de Hipótesis

Pruebas de la bondad del ajuste y análisis de Varianza

Subtemas 1.1 Hipótesis estadísticas. 1.2 Errores tipo I y II 1.3 Pruebas unilaterales y bilaterales 1.4 Prueba de una hipótesis 1.4 Prueba sobre dos medias con distribución Normal y “t” Student. 1.6 Prueba sobre una sola proporción 1.7 Prueba sobre dos proporciones y pareadas 1.8 Software de aplicación 2.1 Análisis Ji-Cuadrada 2.1.1 Prueba de independencia 2.1.2 Prueba de la bondad del ajuste 2.1.3 Tablas de contingencia 2.2 Análisis de varianza

Análisis de regresión, correlación lineal simple y múltiple

2.2.1 Inferencia sobre una varianza de población (Anova). 2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova). 2.3 Software de aplicación 3.1 Regresión lineal y correlación 3.1.1 Método de mínimos cuadrados y la línea 3.1.2 Coeficientes de correlación, de determinación y el del error estándar de la estimación 3.1.3 Intervalos de confianza y de predicción 3.1.4 Análisis de varianza para la regresión 3.1.5 Análisis de residuales 3.2 Regresión y correlación Múltiple 3.2.1 Análisis de regresión múltiple y el método de los mínimos cuadrados 3.2.2 El coeficiente de determinación Múltiple y el error estándar múltiple de estimación 3.2.3 Análisis de varianza para la regresión Múltiple 3.2.4 Análisis de residuales 3.2.5 Software de aplicación

TEMARIO (continuación) Unidad

Temas

Subtemas

Series de tiempo

4.1 Los componentes de una serie de tiempos 4.1.1 Componente de tendencia 4.1.2 Componente cíclico 4.1.3 Componente estacional 4.1.4 Componente irregular 4.2 Métodos de suavizamiento en los Pronósticos 4.2.1 Promedios móviles 4.2.2 Promedios móviles ponderados 4.2.3 Suavizamiento exponencial 4.3 El análisis de regresión en pronósticos 4.3.1 Modelo causal 4.3.2. Estimación de pronósticos 4.4 Software de aplicación

Estadística no paramétrica.

5.1 Escala de medición 5.2 Métodos estadísticos contra no

paramétricos 5.3 Prueba de corridas para aleatoriedad 5.4 Una muestra: prueba de signos 5.5 Una muestra: prueba de Wilcoxon 5.6 Dos muestras: prueba de Mann-Whitney 5.7 Observaciones pareadas: prueba de signos 5.8 Observaciones pareadas prueba de Wilcoxon 5.9 Varias muestras independientes: prueba de Krauskal-Wallis 5.10 Software de aplicación

8.- SUGERENCIAS DIDÁCTICAS (desarrollo de competencias genéricas) El profesor: Incide en procesos metacognitivos. Propicia actividades de búsqueda, selección y análisis de información de distintas fuentes. Fomenta el desarrollo de actividades intelectuales de inducción-deducción y análisissíntesis, que encaminen hacia la investigación. Organiza actividades grupales que propicien el razonamiento inductivo y deductivo entre los estudiantes. Sugiere el uso de la hoja de cálculo Excel como un apoyo para la solución de problemas de la asignatura. Recomienda el uso de la estadística como una herramienta en la organización de datos como resultados de distintas actividades a su carrera. Recomienda que se realicen inferencias estadísticas en estudios de caso. Asigna ejercicios a resolver individualmente y en equipo en clase y extraclase. Coordina la discusión y el análisis de las definiciones, formulas, modelos y resultados de ejercicios resueltos. Vincula las asignaturas del área económico-administrativa con los contenidos de esta asignatura. 9.- SUGERENCIAS DE EVALUACIÓN La evaluación de la asignatura debe ser formativa y sumativa, por lo que debe considerarse el desempeño en cada una de las actividades de aprendizaje, siempre y cuando demuestren calidad y relación con los temas de esta y otras asignaturas; entre estas se consideran: Portafolio de evidencias en resguardo por el estudiante. Participación del alumno en clase. Autoevaluación por unidad en tiempo y forma Solución de problemas integrados a sus apuntes. Interpretación de problemas resueltos e integrados a sus apuntes. Entrega de tareas de reforzamiento integrados a sus apuntes. Entrega de trabajos de investigación individual y en equipo. Informe de prácticas y exposición de resultados obtenidos.

10.- UNIDADES DE APRENDIZAJE Unidad 1: Prueba de hipótesis. Competencia

específica

a Actividades de Aprendizaje

desarrollar

Aplica las técnicas de la prueba de hipótesis a parámetros poblacionales en una y dos muestras, así como en muestras pareadas.

Formula juego de hipótesis estadísticas. Aplica el procedimiento de la prueba de hipótesis. Contrasta hipótesis a diferentes niveles de significación. rechazo para ubicación y entendimiento. Interpreta los resultados de la prueba de hipótesis para su correcta conclusión. Elabora un formulario de los temas de la unidad importantes de la unidad.

Unidad 2: Prueba de bondad de ajuste y análisis de la varianza. Competencia específica a desarrollar Consulta los conceptos de la prueba de bondad de ajuste y análisis de varianza y los aplica en la inferencia estadística para verificar si dos clasificaciones de datos son independientes entre sí y prueba la significancia entre más de dos medias muéstrales respectivamente.

Actividades de Aprendizaje puede utilizar una prueba Ji-Cuadrada. Consulta e identifica cuando utilizar un análisis de varianza en inferencia estadística Consulta, utiliza y aplica la distribución Jicuadrada para verificar si dos clasificaciones de datos son independientes entre sí. Consulta y utiliza las pruebas de hipótesis referentes a proporciones para elaborar tablas de contingencia y analizar la Ji-Cuadrada. administración para un análisis de Varianza. Calcula e interpreta la estadística F. estimaciones de la σ. Elabora un formulario de los temas de la unidad

de la unidad.

Unidad 3: Análisis de regresión, correlación lineal simple y múltiple. Competencia específica a desarrollar Consulta y utiliza ejemplos de aplicación de la regresión lineal simple y de la múltiple.

Actividades de Aprendizaje Consulta y desarrolla una ecuación que relaciona las variables conocidas con la variable desconocida. Consulta, explica y aplica un diagrama de dispersión para visualizar la relación entre dos variables. valores futuros de la variable dependiente. Consulta, explica y aplica el análisis de correlación para describir el grado de relación lineal entre dos variables. el coeficiente de determinación para medir la proporción de la variación en Y por la variación de X. Usa la covarianza para la compresión del coeficiente de correlación. Desarrolla una ecuación de estimación de regresión múltiple que relacione más de una variable independiente con la variable dependiente. estimación de regresión múltiple que relacione más de una variable independiente con la variable dependiente. e interpreta los coeficientes de correlación y determinación múltiples. cálculo de predicciones. y hace inferencias sobre los coeficientes de las variables independientes. Utiliza un software para la solución de ejercicios

Unidad 4: Series de tiempo. Competencia específica a desarrollar Consulta, explica y aplica las diferentes técnicas y componentes de una serie de tiempos.

Actividades de Aprendizaje Investiga, expone y comprende los cuatro componentes de una serie temporal. Emplea las técnicas de regresión para estimar y predecir la tendencia de una serie temporal.

Usa los pronósticos basados en factores de tendencia y estacionales para calcular ciclos e indicadores económicos. Aplica la técnica de suavización exponencial como método de pronóstico. Utiliza la técnica de variaciones cíclicas y estacionales para realizar pronósticos por temporada. Pronostica modelos económicos por el método de promedios móviles. Emplea los cuatro componentes de una serie temporal para la solución de un problema integral relativo a la Ingeniería en administración. Utiliza un paquete computacional para graficar y solucionar problemas de pronósticos.

Unidad 5: Estadística no paramétrica. Competencia específica a desarrollar Consulta, explica y aplica los conceptos de la estadística no paramétrica para resolver problemas y tomar la mejor decisión.

Actividades de Aprendizaje Cita las ventajas y desventajas de utilizar métodos no parámetricos. Utiliza pruebas de hipótesis cuando no se pueda hacer ninguna suposición sobre la distribución a partir de la cual estamos muestreando. Utiliza la prueba de signos para probar hipótesis nula referente al valor de la mediana de la población. aleatoriedad de una serie de observaciones, cuando cada observación puede ser asignada a dos categorías. para probar la hipótesis nula referente al valor de la mediana de la población. para observaciones pareadas para probar la hipótesis nula de que las dos medianas de la población son iguales. -Wallis de muestras independientes para probar la hipótesis nula que varias poblaciones tienen las mismas medianas. de problemas.

11.- FUENTES DE INFORMACIÓN 1. Anderson, D. R.; Sweeney, D. J. y Williams T. A. 1999. Estadística para Administración y Economía. 7a Edición. International Thompson Editores, S. A. de C. V. México 06400, D. F. 909 pp 2. Douglas A. Lind, William G. Marchal & Samuel A. Wathen. 2005. Statistical Techniques in Business and Economics. 12th Edition. McGraw-Hill Companies.490 pp

3. Douglas, A. L; William, G. M. Robert, D. Mason. 2004. Estadística para a Administración y Economía. 11 Edición. ALFAOMEGA GRUPO EDITOR, S. A. de C. V. Pitágoras 1139, Col. Del Valle. 03100 México, D. F. 830 pp 4. Levine, D. M.; Krehbiel, T. C. y Berenson, T. C. 2006. Estadística para Administración. 4ª edición. Pearson Educación de México, S. A. de C. V. Naucalpan de Juárez, Edo, de México. 648 pp 5. Mendenhall, W. y Reinmuth, J. E.1999. Estadística para administración y economía. Tercera edición. Grupo Editorial Iberoamericana, S. A. de C. V. Nebraska 199 Col. Nápoles. C. P. 03810 México, D. F. 707 pp 6. Montgomery, D. et al. (1997). Probabilidad y estadística para ingeniería y administración. México: CECSA. 7. Triola, M. F. 2000. Estadística Elemental. 7ª edición. Addison Wesley Longman de México, S. A. de C. V. Naucalpan de Juárez, Edo, de México. 824 pp 12.- PRÁCTICAS PROPUESTAS Práctica 1. Contraste de hipótesis para la media y la proporción poblacional, usando una distribución normal y una “t “ de Student. Práctica 2. Contraste de hipótesis para la media y la proporción de dos poblaciones, usando una distribución normal y t de Student. Práctica 3. Prueba de hipótesis para la media y la proporción de una muestra pareada. Práctica 4. Realizar un contraste de hipótesis para una población multinomial. Práctica 5. Contraste de hipótesis para una prueba de independencia, usando tablas de contingencia. Práctica 6. Contraste de hipótesis para la varianza de una y dos poblaciones. Práctica 7. Estimación de los coeficientes de regresión y correlación en un modelo lineal y múltiple. Práctica 8. Elaboración de intervalos de confianza para valores predichos para 2 o más variables. Práctica 9. Análisis de variaciones cíclicas y estacionales Práctica10. Pronósticos basados en factores de tendencia y estacionales Práctica 11. Prueba de rangos para probar que dos conjuntos de datos dependientes provienen de poblaciones idénticas. Práctica 12. Prueba de afirmación de que dos conjuntos de datos dependientes tienen la misma mediana. Práctica 13. Aplicación de la prueba de series para probar si los datos se seleccionaron aleatoriamente.

UNIDAD I

PRUEBA DE HIPÓTESIS 21

1. PRUEBAS DE HIPÓTESIS. 1.1 HIPÓTESIS ESTADÍSTICAS. CONCEPTOS GENERALES. 1.2 ERRORES TIPO I Y II. 1.3 PRUEBAS UNILATERALES Y BILATERALES. 1.4 PRUEBA DE UNA HIPÓTESIS: REFERENTE A LA MEDIA CON VARIANZA DESCONOCIDA UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. 1.5 DOS MUESTRAS: PRUEBA SOBRE DOS MEDIAS UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. 1.6 UNA MUESTRA: PRUEBA SOBRE UNA SOLA PROPORCIÓN. 1.7 DOS MUESTRAS: PRUEBA SOBRE DOS PROPORCIONES. 1.8 DOS MUESTRAS: PRUEBA PAREADAS.

1. PRUEBAS DE HIPÓTESIS. Estadística. Es el conjunto de técnicas que tienen por objeto recopilar, analizar, e interpretar datos (numéricos); así como para sacar conclusiones válidas y tomar decisiones razonables basadas en tal análisis.

Las personas vemos a la estadística desde perspectivas distintas, suele vérsele como algo relacionado con porcentajes, promedios, tablas y gráficas, la información estadística se usa por muchas razones entre ellas encontramos: informar al público, proporcionar comparaciones, explicar acciones que se han efectuado, influir en decisiones que han de tomarse, etc.

Estadística descriptiva o deductiva. Incluye las técnicas que se relacionan con el resumen y la descripción de datos numéricos, es decir, recopilan, organizan y analizan datos cuantitativos.

Estadística inferencial o inductiva. Comprenden aquellas técnicas por medio de las cuales se toman decisiones sobre una población estadística basadas en una muestra.

1.1 HIPÓTESIS ESTADÍSTICAS. CONCEPTOS GENERALES. Hipótesis. Es una aseveración de una población elaborado con el propósito de poner a prueba, para verificar si la afirmación es razonable (se usan datos). En el análisis estadístico se hace una aseveración, es decir, se plantea una hipótesis, después se hacen las pruebas para verificar la aseveración o para determinar que no es verdadera. Por tanto, la prueba de hipótesis es un procedimiento basado en la evidencia muestral y la teoría de probabilidad; se emplea para determinar si la hipótesis es una afirmación razonable. La prueba de hipótesis se realiza mediante un procedimiento sistemático de cinco pasos:  Paso 1. Se plantea la hipótesis nula y alterna.  Paso 2. Se selecciona el nivel de significancia.  Paso 3. Se identifica el estadístico de prueba.  Paso 4. Se formula la regla de decisión.  Paso 5. Se toma una muestra y se decide.(si se rechaza la hipótesis nula, se acepta la hipótesis alterna o viceversa)

Siguiendo este procedimiento sistemático, al llegar al paso cinco se puede o no rechazar la hipótesis, pero debemos de tener cuidado con esta determinación ya que en la consideración de estadística no proporciona evidencia de que algo sea verdadero. Esta prueba aporta una clase de prueba más allá de una duda razonable. Objetivo de la prueba de hipótesis. El propósito de la prueba de hipótesis no es cuestionar el valor calculado del estadístico (muestral), sino hacer un juicio con respecto a la diferencia entre estadístico de muestra y un valor planteado del parámetro. De igual forma la prueba de hipótesis determina si un valor propuesto (hipotético) pará un parámetro poblacional, por ejemplo para una media, debe aceptarse como plausible con base en la evidencia muestral.

1.2 ERRORES TIPO I Y II. Cualquiera que sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la H0 o de la Ha, puede incurrirse en error: Un error tipo I. Se presenta si la hipótesis nula H0 es rechazada cuando es verdadera y debía ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α Un error tipo II. Se presenta si la hipótesis nula es aceptada cuando es falsa y debía ser rechazada; se denota con la letra griega β. En cualquiera de los dos casos se comete un error al tomar una decisión equivocada. En la siguiente tabla se muestran las decisiones que puede tomar el investigador y las consecuencias posibles. Hipótesis nula H0 es verdadera H0 es falsa

Investigador Se acepta H0 Se rechaza H0 Decisión Error tipo I correcta Error tipo II Decisión correcta

Para que cualquier ensayo de hipótesis sea bueno, debe diseñarse de forma que minimice los errores de decisión. En la práctica un tipo de error puede tener más importancia que el otro, y así se tiene a conseguir poner una limitación al error de mayor importancia. La única forma de reducir ambos tipos de errores es incrementar el tamaño de la muestra, lo cual puede ser o posible. 1.3 PRUEBAS UNILATERALES Y BILATERALES. Prueba unilateral o de un extremo: la hipótesis planteada se formula con ≥ o ≤

Ejemplo: H0: µ ≥ 200

H0: µ ≤ 200

H1: µ < 200

H1: µ > 200

Prueba bilateral o de dos extremos: la hipótesis planteada se formula con la igualdad Ejemplo: H0: µ = 200 H1: µ ≠ 200

1.4 PRUEBA DE UNA HIPÓTESIS: REFERENTE A LA MEDIA CON VARIANZA DESCONOCIDA UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. En las pruebas de hipótesis para la media (μ), cuando se conoce la desviación estándar (σ) poblacional, o cuando el valor de la muestra es grande (30 o más), el valor estadístico de prueba es (z) y se determina a partir de: x Z  n El valor estadístico (z), para muestra grande y desviación estándar poblacional desconocida se determina por la ecuación: x Z S n

En la prueba para una media poblacional con muestra pequeña y desviación estándar poblacional desconocida se utiliza el valor estadístico (t). x t S n Nivel de significancia. Se le denota mediante la letra griega (α), también es denominada como nivel de riesgo, este término es más adecuado ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera. Este nivel esta bajo el control de la persona que realiza la prueba. Si suponemos que la hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad de no aceptarla, es decir, que esté fuera del área de aceptación. El nivel de confianza (1- α), indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la población. La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo (aceptación). Si el estadístico de prueba cae dentro de la región de aceptación, no se puede rechazar la hipótesis nula.

Nivel de 0.10 significancia Valores críticos - 1.28 de z para test + unilateral 1.28 Valores críticos de z para test 1.645 bilateral y + 1.645

0.05

0.01

0.005

0.002

- 2.33 - 2.58 - 2.88 1.645 + + + + 2.33 2.58 2.88 1.645 - 1.96 - 2.58 - 2.81 - 3.08 y y y y + + + + 1.96 2.58 2.81 3.08

Valor critico. Es el punto de división entre la región en la que se rechaza la hipótesis nula y la región en la que no se rechaza la hipótesis nula.

Ejemplos: 1. El jefe de división de la Licenciatura en Administración del ITESCO manifiesta que el número promedio de lectores por día es de 350. Para confirmar o no este supuesto se controla la cantidad de lectores que utilizaron la biblioteca durante 30 días. Se considera el nivel de significancia de 0.05 Datos:

Día 1 2 3 4 5 6 7 8 9 10

Usuarios 356 427 387 510 288 290 320 350 403 329

Día Usuarios 11 305 12 413 13 391 14 380 15 382 16 389 17 405 18 293 19 276 20 417

Día 21 22 23 24 25 26 27 28 29 30

Usuario 429 376 328 411 397 365 405 369 429 364

Solución: Se trata de un problema con una media poblacional: muestra grande y desviación estándar poblacional desconocida. Paso 1: Seleccionamos la hipótesis nula y la hipótesis alternativa H0: μ═350 H1: μ≠ 350 Paso 2: Nivel de confianza o significancia 95% α═0.05 Paso 3: Calculamos o determinamos el valor estadístico de prueba Debido a que el número de muestras es igual a 30, conocemos la media de la población, pero la desviación estándar de la población es desconocida, en este caso calculamos la desviación estándar muestral y la media de la muestra empleando Excel, lo cual se muestra en el cuadro que sigue. Columna1

Media 372.8 Error típico 9.56951578 Mediana 381 Moda 405 Desviación estándar 52.4143965 Varianza de la muestra 2747.26897 Curtosis 0.36687081 Coeficiente de asimetría 0.04706877 Rango 234 Mínimo 276 Máximo 510 Suma 11184 Cuenta 30 Nivel de confianza (95.0%) 19.571868 x   372.8  350   2.38 S 52.414 / 30 n Paso 4: Formulación de la regla de decisión. La regla de decisión la formulamos teniendo en cuenta que esta es una prueba de dos colas, la mitad de 0.05, es decir 0.025, está en cada cola. El área en la que no se rechaza Ho está entre las dos colas, es por consiguiente 0.95. El valor critico para 0.05 da un valor de Zc = 1.96. Por consiguiente la regla de decisión es: Rechazar la hipótesis nula (Ho) si Z<-1.96 o si Z>1.96, Paso 5: Toma de decisión. Como el valor del estadístico cae dentro de la zona de rechazo, por tanto se rechaza la hipótesis nula (Ho), se acepta la hipótesis alterna (H1). Z

2. Se tiene la siguiente prueba de hipótesis: H0: µ ≤ 15 H1: µ > 15 Una muestra de 40 elementos produce una media de 16.5 y una desviación estándar de 7. a) Con α= 0.02, ¿cuál es el valor crítico de z y cuál es la regla de rechazo? b) Determine el valor del estadístico de z c) ¿cuál es su conclusión? Solución:

a) Para calcular el valor de z, debido a que no se tiene el valor en la tabla se tiene que interpolar, es decir: z  2.33 0.02  0.01  1.645  2.33 0.05  0.01 z  2.33 0.01   0.685 0.04 z  2.33  0.25  0.685 Z – 2.33= (0.25)(-0.685) Z – 2.33= -0.171 Z= -0.171 + 2.33 Z= 2.158 z = 2.158, Rechazar H0: µ ≤ 15, si es mayor que 2.158

x   16.5  15 1.5    1.356 S 7 / 40 1.106 n c) No se rechaza la hipótesis nula

b) Z 

3. La duración promedio de una semana de trabajo para la población de trabajadores es de 39.2 horas. Pruebe las hipótesis, H0: µ = 39.2 horas y H1: µ ≠ 39.2 horas, con α=0.05. a) ¿Cuáles son los valores críticos para el estadístico de prueba y cuál es la regla de rechazo para H0? b) Suponga que en una muestra de seguimiento de 112 trabajadores la media muestral es de 38.5 horas y que la desviación estándar muestral es de 4.8 horas. ¿Cuál es el valor del estadístico de prueba? c) ¿Cuál es su conclusión? Solución: H0: µ = 39.2 H1: µ ≠ 39.2 a) con α=0.05, z=±1.96, se rechaza la H0, si z<-1.96 o z>1.96

x   38.5  39.2  0.7    1.545 S 4.8 / 112 0.453 n c) No se rechaza la H0

b) Z 

4. Las personas que solicitaron devoluciones de impuestos federales antes del 31 de marzo tuvieron una devolución promedio de 1056 dólares. Hay una población de solicitantes que mandan sus documentos de último minuto durante los últimos cinco días del periodo de impuesto (normalmente del 10 al 15 de abril). a) Un investigador sugiere que una de las razones por las que las personas esperan hasta los últimos días es que, en promedio, tienen una devolución menor que quienes las solicitan antes. Elabore las hipótesis, adecuadas para que el rechazo de H0 respalde lo que opina el investigador. b) Con α= 0.05, ¿Cuál es el valor crítico para el estadístico de prueba y cuál es la regla de rechazo? c) Para una muestra de 400 individuos que solicitaron una devolución entre el 10 y 15 de abril, la devolución muestral promedio fue de 910 dólares y la desviación estándar fue de 1600 dólares, calcule el valor del estadístico de prueba. d) ¿Cuál es su conclusión? Solución: a) H0: µ ≥ 1056 H1: µ < 1056 b) Con α=0.05, el valor de z= -1.645, la regla de decisión es: rechazar H0, si z es menor que -1.645. x 910  1056  146 c) Z     1.825  80 1600 / 400 n d) Se rechaza la H0, se concluye que µ<1056 5. Se tiene la siguiente prueba de hipótesis: H0: µ = 15 H1: µ ≠ 15 Con una muestra de 50 elementos se obtiene una media de 14.2 y una desviación estándar de 5. a) ¿Cuál es la regla de rechazo con α=0.02? b) Determine el valor del estadístico de prueba z. c) ¿Cuál es su conclusión? Solución: a) Para calcular el valor de z, debido a que no se tiene el valor en la tabla se tiene que interpolar, es decir: z  2.58 0.02  0.01  1.96  2.58 0.05  0.01

z  2.58 0.01   0.62 0.04 z  2.58  0.25  0.62 Z – 2.58= (0.25)(-0.62) Z – 2.58= -0.155 Z= -0.155 + 2.58 Z= 2.425 Con α=0.02, el valor de z= -2.425 y 2.425, la regla de decisión es: rechazar H0: si z <2.425 o z >2.425.

b) Z 

x





14.2  15  0.8   1.131 0.707 5 / 50

n c) No se rechaza la H0.

6. Se tiene la siguiente prueba de hipótesis H0: µ = 20 H1: µ ≠ 20 Los datos de una muestra de 6 elementos son: 18, 20, 16, 19, 17 y 18. a) Calcule la media de la muestra b) Encuentre la desviación estándar de la muestra c) Con α=0.05, ¿cuál es la regla de rechazo? d) Calcule el valor del estadístico t e) ¿Cuál es su conclusión? Solución: H0: µ = 20 H1: µ ≠ 20 19  20  16  19  17  18  18 a) x  6 S

  x  x n 1



10 1.414 5

c) Con α=0.05, como es una prueba bilateral, por lo tanto Grados de libertad = n-1= 6-1 = 5

 2



0.05  0.025 2

t = ±2.571, se rechaza la H0, si z<-2.571 o z>2.571

x 18  20 2    3.466 S 1.414 / 6 0.577 n e) Se rechaza H0, se concluye que H1 es cierta.

d) t 

Ejercicios: 1. El gerente del Hotel Relax afirma que la media de las cuentas de los huéspedes, en un fin de semana, es de 600 dólares o menos. Un empleado del departamento de contabilidad del hotel notó que recientemente los cargos totales en las cuentas de los huéspedes han aumentado. El contador usará una muestra de cuentas de fin de semana para probar la afirmación del gerente. ¿Cuál de las siguientes formas de hipótesis se debe usar para probar la afirmación del gerente? Explique por qué. H0: µ ≥ H0: µ ≤ H0: µ = 600 600 600 H1: µ < H1: µ > H1: µ ≠ 600 600 600

Solución: La segunda opción porque se desea probar lo que dijo el gerente que µ ≤ 600, y en una prueba de hipótesis, para probar esa aseveración lo que se hace es contradecirla, tratando de eliminar dicho supuesto. 2. Se tiene la siguiente prueba de hipótesis H0: µ ≥ 10 H1: µ < 10 Una muestra de 50 elementos produce una media de la muestra de 9.46 y una desviación estándar de la muestra de 2. a) Cuando α= 0.05, ¿cuál es el valor crítico de z?, ¿cuál es la regla de rechazo? b) Calcule el valor del estadístico de prueba z, ¿cuál es su conclusión? Solución: a) Con α= 0.05, z=±1.645, La regla de decisión es que se rechaza la H0 si z < -1.645 x   9.46  10  0.54 b) Z     1.914 por lo tanto se rechaza la H0  0.282 2 / 50 n

3. Se tiene la siguiente prueba de hipótesis: H0: µ ≥ 25 H1: µ < 25 Se usa una muestra de 100 artículos y se supone que la desviación estándar de la población es 12. Use α= 0.05, determine el valor del estadístico z y llegue a una conclusión para cada uno de los siguientes resultados de la media: a) ̅ = 22 b) ̅ = 24 c) ̅ = 23.5 d) ̅ = 22.8 Solución: Con α= 0.05, z=±1.645, La regla de decisión es que se rechaza la H0 si z < -1.645 x 22  25 3 a) Z     2.5  12 / 100 1.2 n x 24  25 1 b) Z     0.833  12 / 100 1.2 n x   23.5  25  1.5 c) Z     1.25  1.2 12 / 100 n x   22.8  25  2.2 d) Z     1.833  1.2 12 / 100 n La conclusión es que se rechaza la H0, en los encisos (a y d), y no se rechaza la H0 en los encisos (b y c) 4. Media Matrix, Inc, vigila a los usuarios de internet en siete países: Australia, Gran Bretaña, Canadá, Francia, Alemania, Japón y Estados Unidos. Según las cifras de mediciones recientes, los usuarios estadounidenses ocupan el primer lugar en el uso de internet con un promedio de 13 horas por semana (The Washington Post, 4 de agosto de 2000). Suponga que en un estudio de seguimiento en el que participaron 145 usuarios de internet canadienses, la media muestral fue de 10.8 horas por semana y la desviación estándar muestral fue de 9.2 horas. a) Formule la hipótesis nula y alternativa que servirán para determinar si los datos de la muestra sustentan la conclusión de que los usuarios de internet canadienses tienen una media poblacional menor que el promedio estadounidense de 13 horas por semana. b) Con α= 0.01, ¿Cuál es el valor crítico para el estadístico de prueba? Exprese la regla de rechazo. c) ¿Cuál es el valor del estadístico de prueba? d) ¿Cuál es su conclusión?

Solución. a) H0: µ ≤ 13 H1: µ > 13 b) Con α= 0.01, z=±2.33, La regla de decisión es que se rechaza la H0 si z >2.33 x   10.8  13  2.2 c) Z     2.879  9.2 / 145 0.764 n d) No se rechaza la H0 5. Se tiene la siguiente prueba de hipótesis: H0: µ = 10 H1: µ ≠ 10 Una muestra de 36 artículos produce un promedio de 11 y una desviación estándar de 2.5 a) ¿Cuál es la regla de rechazo con α= 0.05? b) Calcule el valor del estadístico z, ¿cuál es su conclusión? Solución: a) Con α= 0.05, z=±1.96, La regla de decisión es que se rechaza la H 0 si z < -1.96 o si z > 1.96 x 11  10 1 b) Z     2.403 por lo tanto se rechaza la H0  2.5 / 36 0.416 n 6. Se tiene la siguiente prueba de hipótesis: H0: µ ≥ 15 H1: µ < 15 Con una muestra de 22 artículos se obtuvo una desviación estándar muestral de 8. Use α= 0.05. Determine el valor del estadístico y su conclusión para cada uno de los siguientes resultados muestrales: a) ̅ = 13 b) ̅ = 11.5 c) ̅ = 15 d) ̅ = 19 Solución: Con α= 0.05, Grados de libertad= n-1 = 22-1 = 21, t= -1.725, La regla de decisión es que se rechaza la H0 si t < -1.721 x   13  15 2 a) t     1.173 s 8 / 22 1.705 n x   11.5  15  3.5 b) t     2.052 s 1.705 8 / 22 n

x   15  15 0   0 s 8 / 22 1.705 n x   19  15 4 d) t     2.346 s 8 / 22 1.705 n

c) t 

La conclusión es que se rechaza la H0, en el enciso (b), y no se rechaza la H0 en los encisos (a, c y d) 7. El gerente de una agencia automotriz desea implantar un nuevo plan de bono con objeto de aumentar el volumen de ventas. En la actualidad el volumen de ventas es de 14 automóviles vendido por mes. El gerente desea llevar a cabo una investigación para ver si el nuevo plan de bono aumenta el volumen de ventas. Para recurrir datos acerca del plan, se permitirá que un grupo de vendedores trabajen con él durante un período de un mes. a) Formule la hipótesis nula y alternativa que sea más adecuado para este caso. b) Comente la conclusión a que se llegaría cuando no se puede rechazar H0. c) Comente la conclusión a que se llegaría cuando si se puede rechazar H0. Solución: a) H0: µ ≤ 14 H1: µ > 14 b) No hay evidencia de que con el nuevo plan aumentan las ventas. c) Se apoya la hipótesis H1: µ > 14, que con el nuevo plan aumentan las ventas 8. Los estadounidenses gastan un período de 8.6 minutos diario (leyendo los periódicos). Un investigador cree que quienes tienen puestos de mando invierten más tiempo en leer los periódicos que el promedio nacional. Una muestra de personas con puestos gerenciales será seleccionada por el investigador. Los datos de tiempos de lectura del periódico se usarán para probar las siguientes hipótesis nula y alternativa: H0: µ ≤ 8.6 H1: µ > 8.6 a) ¿Cuál es el error tipo I en este caso? ¿cuáles son las consecuencias de cometer este error? b) ¿Cuál es el error tipo II en este caso? ¿cuáles son las consecuencias de cometer este error? Solución: a) Rechazar H0: µ ≤ 8.6, cuando sea cierto b) Aceptar H0: µ ≤ 8.6, cuando sea falsa

1.5 DOS MUESTRAS: PRUEBA SOBRE DOS MEDIAS UTILIZANDO LA DISTRIBUCIÓN NORMAL Y “T” STUDENT. Supongamos que tenemos dos poblaciones 1 y 2. Y sea µ1= La media de la población 1 µ2= La media de la población 2 La diferencia entre las dos medias poblacionales es µ 1- µ2. Para estimar dicha diferencia, seleccionamos dos muestras aleatorias simples formadas por n 1 para la población 1 y n2 para la población 2. Y sean x1 = La media de la muestra aleatoria simple de n1

= La media de la muestra aleatoria simple de n2

Como

es un estimador puntual de µ1 y

es un estimador puntual de µ2, el estimador

puntual de la diferencia de las dos medias poblacionales se expresa como sigue:

x x 1

Valor esperado: E x1  x2 = µ1- µ2 2

Desviación estándar:

 x1x2  n11  n22





S1  S 2 n1 n2

Donde: σ1= Desviación estándar de la población 1 σ2= Desviación estándar de la población 2 n1= Tamaño de la muestra aleatoria simple de la población 1 n2= Tamaño de la muestra aleatoria simple de la población 2 Si ambos tamaños de la muestra son grandes (n1 ≥ 30 y n2 ≥ 30), puede aproximarse la distribución muestral de x1  x2 con una distribución de probabilidad normal. La estimación del intervalo de la diferencia entre las medias de dos poblaciones: para el caso de muestra grande (n1 ≥ 30 y n2 ≥ 30) cuando se supone que se conoce σ1 y σ2 es: x1  x2  Z / 2 x1x2



Cuando se supone que se conoce S1 y S2 es: x1  x2  Z / 2 S x1x2 Para el caso de muestras pequeñas las varianzas de las poblaciones son iguales (σ 12 = σ22= σ2)

 2   2  2  1  1    x1x2 n1 n2   n1 n2 





2 2 S  S  2 1  1   S  n1 n2  n1 n2 

n1  1 S12  n2  1 S 22 n1  n2  2

x  x  t S x 1



Donde el valor t se basa en una distribución t con n1 + n2 -2 grados de libertad. Ejemplos. 1. Una empresa departamental tiene dos tiendas en Coatzacoalcos; una está en el centro de la ciudad y la otra en un centro comercial suburbano. El gerente regional se percató de que los productos de mayor venta en una tienda no siempre son los de mayor venta en la otra. Cree que esta situación puede deberse a diferencias en la demografía de los clientes en las dos zonas. Los clientes pueden tener distinta edad, educación, ingresos, etc. Suponga que el gerente regional ha pedido investigar la diferencia entre las medias de las edades de los clientes que compran en cada tienda. Definamos a la población 1 como todos los clientes que compran en la tienda del centro, y a la población 2 como los que compran en la suburbana. Suponga que los datos de edades de los clientes que se reunieron en las dos muestras aleatorias simples de clientes de la empresa fueron los siguientes: Tienda Cantidad de Edad media Desviación clientes de la muestra estándar de la muestreados muestra Centro 36 40 años 9 años Suburbano 49 35 años 10 años Con un nivel de confianza del 95%, estime el intervalo de la diferencia entre las medias de las edades de las dos poblaciones de los clientes de las tiendas. Solución: n1= 36 x1 =

n2= 49 x2 =

40 35 S1= 9 S2=10 Con = 0.05 x1  x2  40  35  5

Z   1.96





2 2 S1  S 2  (9)  (10)  81  100  841  29  2.071 36 49 36 49 196 14 n1 n2

x  x  Z S x 1



5  1.96(2.071) 5  4.059 (0.941,9.059) años 2. Para un estudio de muestreo que realizó el Banco Prosperidad. Muestras aleatorias independientes de saldos en los estados de cuenta de cheques para clientes de dos de sus sucursales dieron los siguientes resultados. Sucursal Número de Media de la Desviación cuentas de muestra de estándar de la cheques saldos muestra Norte 12 1000 dólares 150 dólares Sur 10 920 dólares 120 dólares Con un nivel de confianza de 90%, estime el intervalo de la diferencia entre las medias de los saldos en las dos sucursales. Solución: n1= 12 n2= 10 x1 = x2 = 1000 920 S1= 150 S2=120 Con = 0.1 Grados de libertad= n1 + n2 – 2= 12+10-2=20 t / 2  t0.1/ 2  t0.05  1.725



n1  1 S12  n2  1 S 22 n1  n2  2

(12  1) 150  (10  1) 120 2



12  10  2



(11)( 22500)  (9)(14400) 20

 18855 2 2 S  S  2  1  1   18855 1  1   13827  58.794    S x1x2 n1 n2 S  n1 n2  4  12 10  x1  x2  t / 2 S x1x2 80  1.725(58.794) 80  101.419 (-21.410, 181.4199)

Ejercicios: 1. Examine los resultados siguientes de dos de dos poblaciones: n1= 50 ̅̅̅ = 13.6

muestras aleatorias independientes tomadas n2= 35 ̅̅̅= 11.6

S1= 2.2 S2=3 a) ¿Cuál es la estimación puntual de la diferencia entre las dos medias de la población? b) Determine un intervalo de confianza de 90% de la diferencia entre las dos medias de la población. c) Determine un intervalo de confianza de 95% de esa diferencia. Solución: a) x1  x2  13.6  11.6  2 b) Con = 0.1 Z  1.28 y1.645 2





2 2 S1  S 2  ( 2.2)  (3)  4.84  9  0.353  0.594 50 35 50 35 n1 n2

x  x  Z S x



x2 2  1.645(0.594) 2  0.977 (1.239, 2.760) y (1.023, 2.977) 1

c) Con = 0.05 Z  1.645 y1.96 2





2 2 S1  S 2  ( 2.2)  (3)  4.84  9  0.353  0.594 50 35 50 35 n1 n2

x  x  Z S x 1



x2 2  1.96(0.594) 2  1.164 (1.022, 2.977) y (0.836, 3.164) 2

2. Un grupo de planeación urbana desea estimar la diferencia entre las medias de los ingresos familiares en dos zonas de un área metropolitana. Unas muestras aleatorias independientes de familias residentes en las dos zonas produjeron los siguientes resultados. Zona 1 Zona 2 n1= 8 n2= 12 ̅̅̅ = 15700 ̅̅̅= 14500 dólares dólares S1= 700 dólares S2=850 dólares a) Determine una estimación puntual para la diferencia entre las medias de los ingresos de las dos zonas b) Determine un intervalo de confianza de 95% para esa diferencia Solución:

x x

 15700  14500  1200

b) Con = 0.05 Grados de libertad= n1 + n2 – 2= 8+12-2=18 t / 2  t0.05/ 2  t0.025  2.101



n1  1 S12  n2  1 S 22

n1  n2  2  632083.333

(8  1)  700  (12  1)  850 2



8  12  2



(7)( 490000)  (11)(722500) 18

2 2 S  S  2  1  1   632083.333 1  1   131684.027  362.882    S x1x2 n1 n2 S  n1 n2   8 12  x1  x2  t / 2 S x1x2 1200  2.101(362.882) 1200  762.417 (437.583, 1962.417)

1.6 UNA MUESTRA: PRUEBA SOBRE UNA SOLA PROPORCIÓN. Empleando los símbolos “p” para indicar la proporción poblacional y “p 0” para representar determinado valor supuesto de dicha proporción, las tres formas de una prueba de hipótesis acerca de una proporción poblacional son las siguientes. H0: p ≥ H0: p ≤ H0: p = p0 p0 p0 H1: p < H1: p > H1: p ≠ p0 p0 p0

Las pruebas de hipótesis respecto a una proporción de la población se basa en la diferencia entre la proporción de la muestra ( ̅ ) y la proporción supuesta de la población (p0). Los métodos que se usan para efectuar las pruebas se parecen mucho a los de la prueba de hipótesis respecto a una media de población. La única diferencia es que se usa la proporción de la muestra y su desviación estándar “σp” para determinar el estadístico de prueba. Se comienza formulando las hipótesis nula y alternativa respecto al valor de la proporción de la población. Posteriormente, con el valor de la proporción de una muestra ̅ y su desviación estándar “σp”, se calcula un valor estadístico “z”. Al comparar el valor del estadístico de prueba con el valor crítico, o bien, comparar el valor “p” con “” permite determinar si se debe rechazar la hipótesis nula. p  p0 p0 1 p0  Z p n p

Ejemplo. En los últimos meses, 20% de los jugadores han sido mujeres. Para tratar de aumentar la proporción de mujeres jugadoras, el club Ríos hizo una promoción especial para atraerlas. Después de una semana, una muestra aleatoria de 400 jugadores dio como resultado 300 hombres y 100 mujeres. Los gerentes del club desean determinar si estos datos respaldan la conclusión de que ha aumentado la proporción de mujeres jugadoras en el club Ríos. Considere = 0.05 Solución. H0: p ≥ 0.20 H1: p < 0.20 Con α= 0.05, z= -1.645, La regla de decisión es que se rechaza la H0 si z < -1.645 p0 1  p0 0.2(1  0.2)   0.02 p n 400 p  p0 0.25  0.2 Z   2.5 0.02 p No se rechaza la H0, si hubo aumento con la promoción. Ejercicio. Se tiene la siguiente prueba de hipótesis. H0: p = 0.20 H1: p ≠ 0.20 Una muestra de 400 elementos dio como resultado una proporción de ̅ a) Con = 0.05, ¿cuál es la regla de rechazo? b) Calcule el valor del estadístico z c) ¿Cuál es su conclusión? Solución: a) Con α= 0.05, z=±1.96, La regla de decisión es que se rechaza la H 0 si z < -1.96 o z>1.96 p0 1  p0 0.2(1  0.2) b)  p    0.02 n 400 p  p0 0.175  0.2 Z   1.25 0.02 p c) No se rechaza la H0 1.7 DOS MUESTRAS: PRUEBA SOBRE DOS PROPORCIONES. El estimador puntual de la diferencia entre las proporciones de dos poblaciones es ̅̅̅ La desviación estándar:

S p1 p2  42

p 1  p   p 1  p  n n 1

̅̅̅

En donde: n1= Tamaño de la muestra aleatoria simple de la población 1 n2= Tamaño de la muestra aleatoria simple de la población 2 p1= Proporción de la población 1 p2= Proporción de la población 2 ̅̅̅=Proporción muestral para una muestra aleatoria simple de la población 1 ̅̅̅=Proporción muestral para una muestra aleatoria simple de la población 2 La estimación del intervalo de la diferencia entre las proporciones de dos poblaciones es: p1  p2  Z  S p  p 1

Para la prueba de hipótesis: p p p  n1 1 n2 2 n1  n2

S p1 p2 

Z

 1 1  p1  p     n1 n2 

p  p    p  p  1



Ejemplo. A una empresa contable le interesa comparar la calidad del trabajo que se realiza en dos de sus oficinas regionales. Al seleccionar muestras aleatorias de declaraciones de impuestos, elaboradas en cada oficina, y al verificar la exactitud de las estimaciones, la empresa podrá estimar la proporción de declaraciones con error preparadas en cada oficina. Sean Oficina 1 Oficina 2 n1= 250 n2= 300 Número de declaraciones con Número de declaraciones con errores= 35 errores= 27 Con un nivel de confianza del 90%, determine el intervalo y suponga que la empresa trata de determinar si las proporciones de errores son distintas entre las dos oficinas, determine la prueba de hipótesis. Solución: 35  0.14 p1  250 27  0.09 p2  300

pp 1

 0.14  0.09  0.05

Con α = 0.1, el valor crítico es

p 1  p   p 1  p   n n p  p  Z S p p

S p1 p2  1



(0.14)(0.86) (0.09)(0.91)   0.027 250 300

0.05(1.645)(0.027) 0.050.044 (0.006, 0.094) H0: p1-p2 = 0 H1: p1-p2 ≠ 0 Con α = 0.1, el valor crítico es Se rechaza la hipótesis nulas si z<-1.645 o z>1.645 n1 p1  n2 p2  (250)(0.14)  (300)(0.09)  62  0.112 p 250  300 550 n1  n2



p2 



 1 1  1   1 p1  p     (0.112)(1  0.112)    (0.112)(0.888) 111500 250 300    n1 n2 



 0.027

Z

 p  p   p  p   (0.14  0.09)  (0)  1.851 1



0.027

Se rechaza la H0 Ejercicio. Se tiene la siguiente prueba de hipótesis. H0: p1 - p2 ≤ 0 H1: p1 – p2  0 Los resultados siguientes pertenecen a dos muestras independientes de las dos poblaciones: Muestra 1 Muestra 2 n1= 200 n2= 300 ̅̅̅ ̅̅̅ ¿Cuál es la conclusión de su prueba de hipótesis con α = 0.05? Solución: Con α = 0.05, el valor crítico es Se rechaza la hipótesis nulas si z>1.645 n1 p1  n2 p2  (200)(0.22)  (300)(0.16)  0.184 p 200  300 n1  n2



p2 



 1 1  1   1 p1  p     (0.184)(1  0.184)    (0.184)(0.816) 11120 200 300    n1 n2 



 0.035

Z

 p  p   p  p   (0.22  0.16)  (0)  1.714 1



p2 Se rechaza la H0

0.035

1.8 DOS MUESTRAS: PRUEBA PAREADAS. Para hacer inferencias estadísticas sobre dos poblaciones, se necesita tener una muestra de cada población. Las dos muestras serán dependientes o independientes de acuerdo a la forma de seleccionarlas. Si la selección de los datos de una población no está relacionada con los otros datos, son muestras independientes. Si las muestras se seleccionan de manera que cada medida en una de ellas pueda asociarse naturalmente con una medida en la otra muestra, se llaman muestras dependientes. Cada dato sale de alguna fuente; una fuente es algo, una persona o un objeto, que produce datos. Si dos medidas se obtienen de la misma fuente, se puede pensar que las medidas están pareadas. En consecuencia dos medidas que se obtienen del mismo conjunto de fuentes son dependientes. Note que si dos muestras son dependientes, entonces necesariamente tienen el mismo tamaño. Muchas aplicaciones prácticas requieren hacer comparaciones entre dos poblaciones con base en datos pareados o en muestras dependientes. Las aplicaciones que pueden involucrar muestras dependientes incluyen:     

Medicina. Poner a prueba los efectos de una dieta mediante la obtención de las medidas del peso en la misma persona antes y después de aplicar una dieta. Enseñanza. Probar la efectividad de una estrategia de enseñanza aplicando exámenes antes y después a los mismos individuos. Agricultura. Poner a prueba los efectos de dos fertilizantes en la producción de frijol de soya comparando la producción de parcelas similares en las mismas condiciones. Finanzas. Comparar las estimaciones de dos talleres de autos chocados para las mismas unidades. Industria. Poner a prueba dos marcas de llantas en cuanto al desgaste del piso colocando una de cada marca en los rines traseros de una muestra de coches del mismo tipo.

La notación “d” es para recordar que la muestra pareada produce datos de diferencia. La media y la desviación estándar son: d 

 di n

 d i  d 



n 1

Se puede utilizar la distribución “t” con n-1 grados de libertad para probar las hipótesis. Con d d datos de diferencia, el estadístico de prueba es: t 



n Además, podemos obtener una estimación del intervalo de la diferencia entre las dos medias poblacionales al usar la metodología simple para poblaciones. El cálculo es el siguiente: d  t / 2 S d n

Ejemplo. Una empresa manufacturera tiene dos métodos con los que sus obreros pueden realizar una tarea de producción. Para maximizar la producción, la empresa desea identificar el método con la menos media del tiempo de terminación por unidad. Sea µ 1 la media del tiempo de terminación para el método 1 y µ2 la correspondiente para el método 2. Suponiendo que los dos métodos de producción tienen la misma media del tiempo de terminación y con =0.05, determine la prueba de hipótesis así como una estimación del intervalo de la diferencia entre las dos medias poblacionales. Trabajador Tiempo de terminación Tiempo de terminación Diferencia en tiempo con el método 1 (minutos) con el método 2 (minutos) de terminación (di) 1 6 5.4 0.6 2 5 5.2 -0.2 3 7 6.5 0.5 4 6.2 5.9 0.3 5 6 6 0.0 6 6.4 5.8 0.6 Total 36.6 34.8 1.8 Solución: H0: µd = 0 H1: µd ≠ 0 Donde µd= µ1 - µ2  1.8 d  di   0.3 n 6

 d i  d 

 n 1 5 Grados de libertad=n-1=6-1=5 Con = 0.05 ⁄ ⁄

t



 0.56

d 



0.3  0  2.2 0.334 6

n No se rechaza la H0

 0.334

⁄

se rechaza la H0 si t<-2.571 o t>2.571

d  t / 2 S d n  0.334  0.3  ( 2.571)   6  0.3  0.350 (-0.05, 0.650)

Ejemplo. Se tiene la siguiente prueba de hipótesis: H0: µd ≤ 0 H1: µd > 0 Los datos siguientes proceden de muestras pareadas tomadas de dos poblaciones. Element Poblaci o ón 1 2 1 21 20 2 28 26 3 18 18 4 20 20 5 26 24 a) b) c) d)

Calcule el valor de la diferencia para cada elemento. Calcule ̅ Calcule la desviación estándar Sd Pruebe la hipótesis con = 0.05, ¿cuál es su conclusión?

Solución: a) 1 + 2 + 0 + 0 + 2 =5  5 b) d  d i   1 n 5

 d i  d 

4 1 n 1 4 d) Grados de libertad=n-1=5-1=4 y con = 0.05 t>2.132 d 1 0 d t   2.236 1 Sd 5 n Se rechaza la H0





se rechaza la H0 si



Ejercicio. Una empresa de investigación de mercados obtuvo una muestra de personas para evaluar el potencial de compra de cierto producto, antes y después que esas personas vieran un nuevo comercial en televisión sobre el producto. Las calificaciones de potencial de compra se basaron en una escala de 0 a 10, donde los valores mayores indicaban un mayor

potencial de compra. La hipótesis nula establecía que la media de la calificación “después” sería menor o igual a la media de la calificación “antes”. El rechazo de esta hipótesis demostraría que el comercial mejoraba la media de la calificación de potencial de compra. Use = 0.05 y los datos siguientes para probar la hipótesis y comentar sobre el valor del comercial. Individuo Calificación de compra Después Antes 1 6 5 2 6 4 3 7 7 4 4 3 5 3 5 6 9 8 7 7 5 8 6 6 Solución: H0: µd ≤ 0 H1: µd > 0 1 + 2 + 0 + 1 - 2 + 1 + 2 + 0 =5  5 a) d  d i   0.625 n 8

 d i  d 

11.875  1.302 n 1 7 c) Grados de libertad=n-1=8-1=7 y con = 0.05  se rechaza la H0 si t>1.895 d 0.625  0 d t   1.358 1.302 Sd 8 n No se rechaza la H0, No se puede llegar a la conclusión de que al ver al comercial se mejora el potencial de compra.







UNIDAD 1

ACTIVIDAD 1. PLANTEAMIENTOS DE H0 Y H1

ACTIVIDAD 2. PROBLEMAS (OPCIÓN DE SOLUCION 1 DE 2).

ACTIVIDAD 3. PROBLEMAS DE HIPOTESIS

ACTIVIDAD 4. INSTALACIÓN DE SOFTWARE ESTADISTICO.

ACTIVIDAD 5. PRESENTACIÓN DE SOFTWARE POR EQUIPO.

Integrantes:  Bautista Osorio Estefany  Díaz Maily Carolina  Fuentes Morales José Alexander  Ortiz Medina Tania Guadalupe  Varo Domínguez Jaricksa Carrera:  Ingeniería en Administración. Materia: Estadística II Semestre: 4° Grupo: A Docente: De los Santos López Eduardo

INTRODUCCIÓN

El uso de ordenadores y métodos para mejorar y facilitar el que los alumnos comprendan mejor temas complejos y desarrollar al máximo sus capacidades, ha puesto en marcha que se elaboren nuevos y mejores software estadísticos

Las nuevas tecnologías han venido a cambiar por completo el panorama tradicional de cómo se hacían, se veían y se enseñaban las estadísticas. Introducirse en este nuevo panorama implica realizar profundos cambios en nuestros programas educativos.

Es muy amplia la variedad de aplicaciones informáticas disponibles para estadística y probabilidad, entre ellas se encuentra INFOSTAT.

INFOSTAT es un software para análisis estadístico desarrollado por un equipo conformado por profesionales de la Estadística con sede en la Universidad Nacional de Córdoba - Facultad de Ciencias Agropecuarias.

INFOSTAT cubre las necesidades de análisis de una amplia gama de usuarios tanto del ámbito académico como privado. El software ha evolucionado rápidamente y se actualiza frecuentemente. Estas actualizaciones no sólo tienen que ver con el agregado de nuevas funcionalidad sino también con el aumento de la productividad y la eficiencia computacional.

INSTALACION DEL PROGRAMA Primer Paso: En la página oficial de INFOSTAT http://www.infostat.com.ar/ en la parte inferior vemos que dice “Versión español” y hacemos clic ahí para poder descargar el programa.

Segundo Paso: Guardamos el archivo, que vendría siendo el programa dando clic en “Guardar archivo”.

Tercer Paso: Después de permitir instalar el programa en nuestro ordenador, comienza la instalación automática del programa.

Cuarto Paso: Nos da la bienvenida el instalador del Software, a continuación damos clic en “Next” para seguir la instalación

Quinto Paso: Continuando con la instalación nos da una “Información Importante” y luego damos clic en “Next”

Sexto Paso: Nos indica en que parte de nuestro equipo estará la carpeta dónde se instalará el programa, dejamos la carpeta por defecto donde se instalará y “Next” nuevamente.

ACTIVIDAD 6. EJERCICIO POR EQUIPO.

ACTIVIDAD 7. MAS EJERCICIOS DE CLASES.

ACTIVIDAD 8. DESARROLLAR TEMA 1.7

Instituto Tecnológico Superior de Coatzacoalcos Febrero/2014 – Junio/2014 Nombre del Alumno

ORTIZ

MEDINA

Apellido Paterno

TANIA GUADALUPE

Apellido Materno

Nombre(s)

Reporte de Investigación ASIGNATURA:

ESTADISTICA II

Nombre del Docente

LOPEZ

DE LOS SANTOS

Apellido Paterno

CARRERA: No. Control:

ING.ADMINISTRACIÓN 12081419

Semestre: Fecha de inicio:

EDUARDO

Apellido Materno

4º

Nombre(s)

Grupo:

FEB/14

Fecha de término:

“A”

JUN/14

ÍNDICE

PRESENTACIÓN .................................................................................................... 1

INDICE .................................................................................................................... 2

INTRODUCCIÓN .................................................................................................. 3

DESARROLLO .................................................................................................. 4-1

CONCLUSIÓN ...................................................................................................... 12

BIBLIOGRAFÍA .................................................................................................... 13

INTRODUCCIÓN Las pruebas de proporciones y pareadas son adecuadas cuando los datos que se están analizando constan de cuentas o frecuencias de elementos de dos o más clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de población. Las pruebas se basan en la premisa de que una proporción maestral (es decir, x ocurrencias en n observaciones, o x/n) será igual a la proporción verdadera de la población si se toman márgenes o tolerancias para la variabilidad maestral. Las pruebas suelen enfocarse en la diferencia entre un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número observado realmente. La diferencia se compara con la variabilidad prescrita mediante una distribución de muestreo que tiene como base el supuesto de que

realmente verdadera.

En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto que, en el caso de las primeras, los datos muéstrales se consideran como cuentas en lugar de como mediciones. En esta investigación se refiere específicamente a la prueba de proporciones y pareadas.

DOS MUESTRAS: PRUEBA SOBRE DOS PROPORCIONES Y PAREADAS

Cuando se desea probar la hipótesis de que las proporciones en dos poblaciones no son diferentes, las dos proporciones muéstrales se emplean para determinar el error estándar de la diferencia entre proporciones. La estimación conjunta de la proporción poblacional, basada en las proporciones obtenidas en dos muestras independientes, es:

El error estándar de la diferencia entre proporciones que se usa para probar la suposición de no diferencia es:

La hipótesis nula por probar es normalmente de la forma,

Contra una hipótesis alternativa de uno o dos extremos. La fórmula para obtener el estadístico Z para probar la hipótesis nula de que no hay diferencia entre dos proporciones poblacionales es:

Para que la diferencia de las proporciones muéstrales tenga una distribución aproximadamente normal, los tamaños de las muestras deben ser grandes y las proporciones no deben estar muy cerca de 0 a 1. EJEMPLO:

Una muestra de 50 familias de una comunidad muestra que 10 de ellas están viendo un programa especial de televisión sobre la economía nacional. En una segunda comunidad 15 familias de una muestra aleatoria de 50 están viendo el programa especial de televisión, a continuación se prueba la hipótesis de que la proporción general de televidentes en las dos comunidades no difiere, usando el nivel de significancia de 1%.

Prueba de proporciones de dos muestras La hip贸tesis nula en una prueba de dos muestras es

EJEMPLO ILUSTRATIVO

Se ponen a prueba la enseñanza de la Estadística empleando Excel y Winstats. Para determinar si los estudiantes difieren en términos de estar a favor de la nueva enseñanza se toma una muestra de 20 estudiantes de dos paralelos. De paralelo A 18 están a favor, en tanto que del paralelo B están a favor 14. ¿Es posible concluir con un nivel de significación de 0,05 que los estudiantes que están a favor de la nueva enseñanza de la Estadística es la misma en los dos paralelos? Los datos son:

Las hipótesis son

Calculando la proporción maestral se obtiene:

Los cรกlculos en Excel se muestran en la siguiente figura:

El grรกfico elaborado en Winstats y Paint se muestra a continuaciรณn:

Decisión:

DOS MUESTRAS: PRUEBAS PAREADAS En muchas situaciones las muestras se extraen como pares de valores tal como se determina el nivel de productividad de los trabajadores, antes y después de un programa de capacitación. A esta clase de datos e les denomina observaciones apareadas o pares asociados. También a diferencia de las muestras independientes, a dos muestras que contienen observaciones apareadas se les denomina muestras dependientes. El método apropiado para probar la diferencia entre las medias de dos muestras, es decir, para observaciones apareadas, consiste primero en determinar la diferencia entre cada par de valores, y después probar la hipótesis nula de que la diferencia poblacional promedio es 0. Por ello desde el punto de vista de los cálculos, se aplica una aprueba a una muestra de valores. La diferencia promedio para el conjunto de observaciones apareadas es:

La fórmula de desviaciones y la formula abreviada para la distribución estándar y las diferencias entre observaciones apareadas son, respectivamente

El error estándar del promedio de las diferencias entre observaciones apareadas:

Como el error estándar del promedio de las diferencias se calcula con base en las diferencias observadas en las muestras apareadas (es decir se desconoce el valor poblacional y como por lo general se supone que los valores de d tienen una distribución normal, la distribución t resulta apropiada para probar la hipótesis nula de que

El estadístico de prueba que se utiliza para probar la hipótesis de que no existe diferencia entre las medias de un conjunto de observaciones apareadas es:

EJEMPLO:

Un fabricante de automóviles obtiene datos de rendimiento de gasolina para una muestra de n=10 automóviles es diversas categorías de peso utilizando gasolina común, con y sin un determinado aditivo. Por supuesto se afinan las máquinas de acuerdo con las mismas especificaciones antes de realizar cada prueba y se utilizan los mismos conductores para las dos condiciones (de hecho el conductor no sabe qué tipo de gasolina se utiliza en las pruebas). Con los datos de rendimiento de la tabla, se prueba la hipótesis de que no existe diferencia entre el kilometraje promedio que se obtiene con y sin el aditivo, utilizando un nivel se significancia del 5%.

CONCLUSIÓN Queda comprendido que con estas pruebas de dos proporciones y las pareadas podemos ver en un ámbito más claro el plantear hipótesis nula e hipótesis alterna, ya que son más datos que se manejan y por ello ampliamos nuestro resultado para lograr que acertemos más en la decisión que tomemos. Ya como su nombre lo dice es de dos proporciones pero puede ser de más y pues este básicamente se basa evaluar afirmaciones que se hagan tomando en cuenta cierto porcentaje de la población. En las pareadas aun tenemos más probabilidad de acertar ya que se refiere a un par de valores y así hay más referencia que tomar en cuenta.

Como ya se ah venido viendo anteriormente acerca de las hipótesis, en esta se maneja de igual forma, tú tienes que tomar la decisión respecto a algún resultado que tengas, y aun así corres el riesgo de no haber tomado la mejor decisión, aunque no es muy complicado ya que teniendo ciertos resultados tu solo verificas si se encuentran dentro de un rango aceptable y esta prueba de dos proporciones se maneja de igual forma, se toma la diferencia y se compara con la variabilidad prescrita mediante una distribución de muestreo que tiene como base el supuesto de que la hipótesis Nula es realmente verdadera.

BIBLIOGRAFIA

http://es.scribd.com/doc/59262046/Prueba-de-Hipotesis-de-Dos-

Proporciones

http://www.monografias.com/trabajos91/prueba-hipotesis-proporciones-z-yproporciones-z-y-ji-cuadrado-empleandoexcel-y-winstats/prueba-hipotesis-proporciones-z-y-ji-cuadrado-empleandoexcel-y-winstats.shtml

ACTIVIDAD 9. ELABORACIÓN DE MAPAS EN XMIND.

EVALUACIÓN DE LA UNIDAD 1

PRUEBA DE LA BONDAD DE AJUSTE Y ANÁLISIS DE LA VARIANZA

UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. 2.1 ANÁLISIS JI-CUADRADA. 2.1.1 PRUEBA DE INDEPENDENCIA. 2.1.2 PRUEBA DE LA BONDAD DEL AJUSTE. 2.1.3 TABLAS DE CONTINGENCIA.

2.2 ANÁLISIS DE VARIANZA. 2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). 2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA). (Pendiente)

2.3 PAQUETE COMPUTACIONAL.

UNIDAD 2. PRUEBAS DE LA BONDAD DEL AJUSTE Y ANÁLISIS DE VARIANZA. 2.1 ANÁLISIS JI-CUADRADA. (X es la minúscula de la letra griega ji). Propiedades de las distribuciones ji-cuadrada 2 1. Los valores de X son mayores o iguales que 0. 2 2. La forma de una distribución X depende del grado de libertad=n-1. En consecuencia, hay un 2 número infinito de distribuciones X . 3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 2 4. Las distribuciones X no son simétricas. Tienen colas estrechas que se extienden a la derecha; esto es, están sesgadas a la derecha. 2 5. Cuando n>2, la media de una distribución X es n-1 y la varianza es 2(n-1). 2 6. El valor modal de una distribución X se da en el valor (n-3).

2.1.1 PRUEBA DE INDEPENDENCIA. Una aplicación importante de la distribución Ji cuadrada se relaciona con el uso de datos de muestras para indicar la independencia entre dos variables. La prueba de independencia utiliza el formato de la tabla de contingencias, y por esta razón a veces se le llama prueba de tabla de contingencia o prueba con tabla de contingencia. Pasos para realizar una prueba de independencia: 1. Plantear las hipótesis nula y alternativa. H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas para cada celda de la tabla de contingencias. (

3. Aplicar la ecuación

)(

ó ñ

)

para calcular la frecuencia esperada

para cada celda. Sea eij la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de contingencias, suponiendo independencias. 4. Aplicar la ecuación

f   i

e  e

para calcular un valor de X como estadístico.

Donde fij= frecuencia observada para la categoría en el renglón i y la columna j. eij=frecuencia esperada para la categoría en el renglón i y la columna j de la tabla de contingencias, basadas en las hipótesis de independencia. En la ecuación se usa la doble sumatoria para indicar que se deben hacer los cálculos para todas las celdas de la tabla de contingencia. 5. Regla de rechazo 2

Con el estadístico de prueba: Rechazar H0 si X > X Con el valor p: Rechazar H0 si el valor p < 

Siendo  el nivel de significancia para la prueba; si hay n renglones y m columnas en la tabla de contingencias, el estadístico de prueba tiene una distribución ji cuadrada con (n-1)(m-1) grados de libertad, siempre y cuando las frecuencias esperadas sean 5 o más para todas las categorías.

Ejemplo. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una 2 muestra de 200. Pruebe la independencia entre las variables de renglón y de columna usando x con α= 0.025.

Variable de renglón

Variable de columna B 44 26 70

A 20 30 50

P Q Total

Total C 50 30 80

114 86 200

Solución: H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. (

)(

ó ñ

)

Frecuencias esperadas

(114)(50)  28.5 200 (86)(50) e21  200  21.5

f   i

e  e ij



P Q



(114)(70)  39.9 200 (86)(70) e22  200  30.1



A 28.5 21.5

B 39.9 30.1

(114)(80)  45.6 200 (86)(80) e23  200  34.4



C 45.6 34.4

( 20  28.5) ( 44  39.9) (50  45.6) (30  21.5)    28.5 39.9 45.6 21.5 2

( 26  30.1) (30  34.4)   7.86 30.1 34.4 2

Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 2 X 0.025= 7.37776 Como 7.86 >7.37776; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de columna no es independiente de la variable de renglón. Ejercicios: 1. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una muestra de 2 150 personas. Pruebe la independencia entre las variables bebidas preferidas y el sexo, usando x con α= 0.05. Sexo Hombre Mujer Total

H2O 20 30 50

Bebidas preferidas De sabor De cola 40 20 30 10 70 30

Total 80 70 150

Solución: H0: La variable de bebidas preferidas es independiente del sexo de la persona. H1: La variable de bebidas preferidas no es independiente del sexo de la persona. (

)(

)

Frecuencias esperadas

(80)(50)  26.67 150 (70)(50) e21  150  23.33

(80)(70)  37.33 150 (70)(70) e22  150  32.67



Hombre Mujer

f   i

e  e

(80)(30)  16.00 150 (70)(30) e23  150  14.00



H2O 26.67 23.33

De sabor 37.33 32.67



De cola 16.00 14.00

( 20  26.67 ) ( 40  37.33) ( 20  16) (30  23.33)     26.67 37.33 16 23.33 2

(30  32.67) (10  14)    6.13 32.67 14 2

Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2 2 X 0.05= 5.99147 Como 6.13>5.99147; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de las bebidas preferidas no es independiente del sexo. 2. Una de las preguntas del estudiante respecto a los suscriptores del 2011 fue: “durante los últimos 12 meses, en viajes de negocios, ¿qué tipo de boleto de avión compró con más frecuencia?” Las respuestas obtenidas se muestran en la siguiente tabla de contingencia. Tipo de boleto

Tipo de vuelo Total Nacional Internacional Primera clase 29 22 51 Clase de negocio o ejecutivo 95 121 216 Clase económica 518 135 653 Total 642 278 920 Usando α= 0.05, pruebe la independencia del tipo de vuelo y tipo de boleto, ¿cuál es su conclusión? Solución: H0: El tipo de boleto comprado es independiente del tipo de vuelo. H1: El tipo de boleto comprado no es independiente del tipo de vuelo. (

)(

)

Frecuencias esperadas



(51)(642)  35.59 920



(51)(278)  15.41 920

(216)(642)  150.73 920 (653)(642) e31  920  455.68

(216)(278)  65.27 920 (653)(278) e32  920  197.32



Nacional 26.67 23.33

Primera clase Clase de negocio o ejecutivo Clase económica

f   i

e  e

Internacional 37.33 32.67

( 29  35.59) ( 22  15.41) (95  150.73) (121  65.27)     35.59 15.41 150.73 65.27 2

(518  455.68) (135  197.32)    100.43 455.68 197.32 2

Grados de libertad= (n-1)(m-1)= (3-1)(2-1)= (2)(1)= 2 2 X 0.05= 5.99147 Como 100.43>5.99147; Se rechaza la H0. Esto es, se llega a la conclusión de que el tipo de vuelo no es independiente del tipo de boleto.

2.1.2 PRUEBA DE LA BONDAD DE AJUSTE. La prueba de bondad de ajuste se basa en una comparación entre la muestra de los resultados observados y los resultados esperados suponiendo que la hipótesis nula es verdadera. La prueba de bondad de ajuste se enfoca hacia las diferencias entre las frecuencias observadas y las frecuencias esperadas. Una diferencia grande entre las frecuencias observadas y esperadas hace dudar que las proporciones supuestas sean correctas. El que las diferencias entre las frecuencias observadas y las esperadas sean grandes o pequeñas es un asunto que se define con ayuda del siguiente estadístico de prueba.

 f e 

Estadístico de prueba para bondad de ajuste

2 X  i 1 k

Donde fi= frecuencia observada para la categoría i ei= frecuencia esperada para la categoría i k= cantidad de categorías Nota. El estadístico de prueba tiene distribución ji cuadrada con k-1 grados de libertad, siempre que las frecuencias esperadas sean 5 o más para todas las categorías. Resumen de la prueba de bondad de ajuste para la distribución multinomial. 1. Enunciar las hipótesis nula y alternativa. H0: La población se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías. H1: La población no se apega a una distribución de probabilidad multinomial con probabilidades especificadas para cada una de las k categorías. 2. Tomar una muestra aleatoria y anotar las frecuencias observadas, f i, para cada categoría.

3. Suponiendo que la hipótesis nula es cierta, determinar la frecuencia esperada, ej, en cada categoría, multiplicando la probabilidad de la categoría por el tamaño de la muestra.

 f e 

4. Calcular el valor del estadístico de prueba.

X  i 1 2

5. Regla de rechazo: 2 2 Con el estadístico de prueba: Rechazar H 0 si x > xα Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-1 Ejemplos: 1. Pruebe las siguientes hipótesis con la prueba de bondad de ajuste ji cuadrada: H0: pA= 0.40, pB= 0.40, pC= 0.20 H1: Las proporciones de la población no son pA= 0.40, pB= 0.40, pC= 0.20 Con una muestra de tamaño 200 se obtuvieron 60 en la categoría A, 120 en la B y 20 en la C. use α= 0.01 y pruebe si las proporciones son las que establece H0 Solución: Frecuencias reales: f1= 60 f2= 120 f3= 20 Frecuencias esperadas: e1= (200)(0.40)= 80 e2= (200)(0.40)= 80 e3= (200)(0.20)= 40

 f  e   (60 80) 2

X  i 1 k

(120  80) (20  80)    35 80 80

Grados de libertad= k-1= 3-1= 2 2 X 0.01= 9.21034 Como 35 > 9.21034; Se rechaza la H0. Esto es, la proporción de población no es lo que dice H0. 2. Durante las primeras 13 semanas de la temporada de televisión, se registraron las audiencias de sábado por la noche, de 8:00 pm a 9:00 pm. Como sigue: ABC 29%, CBS 28%, NBC 25% y otros 18%. Dos semanas después, una muestra de 300 hogares arrojó los siguientes resultados de audiencia: ABC 95 hogares, CBS 70 hogares, NBC 89 hogares y otros 46 hogares. Pruebe con α= 0.05, si han cambiado las proporciones de telespectadores. Solución: H0: pABC= 0.29, pCBS= 0.28, pNBC= 0.25, pIND= 0.18 H1: Las proporciones de la población no son pABC= 0.29, pCBS= 0.28, pNBC= 0.25, pIND= 0.18 Frecuencias reales: f1= 95 f2= 70 f3= 89 f4= 46 Frecuencias esperadas: e1= (300)(0.29)= 87

e2= (300)(0.28)= 84 e3= (300)(0.25)= 75 e4= (300)(0.18)= 54

 f  e   (9587) 2

X  i 1 k

(70  84) (89  75) ( 46  54)     6.87 84 75 54

Grados de libertad= k-1= 4-1= 3 2 X 0.05= 7.81 Como 6.87 < 7.81; No se rechaza la H0. Esto es, no hay cambio significativo en las proporciones de los espectadores. Ejercicio. Suponga que hay una población multinomial con 4 categorías: A, B, C y D. La hipótesis nula es que la proporción de artículos es la misma en cada uno, o sea. H0: pA= pB= pC= pD= 0.25 H1: Las proporciones de la población no son pA= pB= pC= pD= 0.25 En una muestra de tamaño 300 se obtuvieron los siguientes resultados en cada categoría: A= 85, B= 95, C= 50, D= 70. Use α= 0.05 para determinar si hay que rechazar H 0. Solución: Frecuencias reales: fA= 85 fB= 95 fC= 50 fD= 70 Frecuencias esperadas: eA= eB= eC= eD= (300)(0.25)= 75

 f  e   (85 75) 2

2 X  i 1 k

(95  75) (50  75) (70  75)     15.33 75 75 75

Grados de libertad= k-1= 4-1= 3 2 X 0.05= 7.81473 Como 15.33 > 7.81473; Se rechaza la H0. Resumen de la prueba de bondad de ajuste para la distribución de Poisson. 1. Plantear las hipótesis nula y alternativa. H0: La población tiene una distribución de probabilidad Poisson. H1: La población no tiene una distribución de probabilidad Poisson. 2. Tomar una muestra aleatoria y a) anotar las frecuencias observadas, fi, para cada valor de la variable aleatoria de Poisson. b) calcular la media del número de ocurrencias µ. 3. Calcular las frecuencias esperadas de ocurrencias, ei, para cada valor de la variable aleatoria de Poisson. Multiplicar el tamaño de la muestra mediante la probabilidad de Poisson de ocurrencia para cada valor de la variable aleatoria de Poisson. Si hay menos de 5 ocurrencias esperadas para ciertos valores, combinar esos valores con los adyacentes y reducir la cantidad de categorías que sea necesario.

 f e 

4. Calcular el valor del estadístico de prueba.

2 X  i 1 k

5. Regla de rechazo: 2 2 Con el estadístico de prueba: Rechazar H 0 si x > xα Con el valor p: Rechazar H0 si el valor p < α Donde α es el nivel de significancia para la prueba, y los grados de libertad son k-2 Ejemplos: 1. En la tabla siguiente se presentan datos acerca del número de ocurrencias de un evento por período y las correspondientes frecuencias observadas. Use α= 0.05 y la prueba de bondad de ajuste para ver si los datos se ajustan a una distribución de Poisson. Cantidad de ocurrencia 0 1 2 3 4 Total

Frecuencia observada 39 30 30 18 3 120

Solución:



(0)(39)  (1)(30)  (3)(18)  (4)(3)  1.3 120

e Probabilidades de Poisson f ( x )  x



1.3

(1.3) (e)  0.2725 0! 1 1.3 (1.3) (e) f (1)   0.3542 1! 2 1.3 (1.3) (e) f ( 2)   0.2302 2! 2 1.3 (1.3) (e) f (3)   0.0997 3! 2 1.3 (1.3) (e) f ( 4)   0.0324 4! f ( 0) 

Frecuencias esperadas: e0= (0.2725)(120)= 32.7 e1= (0.3542)(120)= 42.504 e2= (0.2302)(120)= 27.624 e3= (0.0997)(120)= 11.964 e4= (0.0324)(120)= 3.888

 f e   (39  32.7)  (30  42.504)  (30  27.624)  (18  11.964)  (3  3.888) 2

X  i1 k

 8.344

32.7

Grados de libertad= k-2= 5-2= 3 2 X 0.05= 7.81473

42.504

27.624

11.964

3.888

Como 8.344 > 7.81473; Se rechaza la H0. Esto es se llega a la conclusión de que los datos no tienen una distribución de probabilidad de de Poisson. 2. Se cree que el número de accidentes automovilístico diarios en determinada ciudad tiene una distribución de Poisson. En una muestra de 80 días del año pasado se obtuvieron los datos de la tabla adjunta. ¿Apoyan estos datos la hipótesis de que el número diario de accidentes tiene una distribución de Poisson? Use α= 0.05 Número de accidentes 0 1 2 3 4 Total

Frecuencia observada 34 25 11 7 3 80

Solución:



(0)(34)  (1)(25)  (2)(11)  (3)(7)  (4)(3) 1 80

e Probabilidades de Poisson f ( x )  x



1

(1) ( e)  0.3678 0! 1 1 (1) (e) f (1)   0.3678 1! 2 1 (1) ( e) f ( 2)   0.1839 2! 3 1 (1) ( e) f (3)   0.0613 3! 0 1 (1) ( e) f ( 4)   0.0153 4! f ( 0) 

Frecuencias esperadas: e0= (0.3678)(80)= 29.424 e1= (0.3678)(80)= 29.424 e2= (0.1839)(80)= 14.712 e3= (0.0613)(80)= 4.904 e4= (0.0153)(80)= 1.2240

 f  e   (34  29.424) 2

X  i1 2

 5.7859

29.424



( 25  29.424) (11  14.712) (7  4.904) (3  1.2240)    29.424 14.712 4.904 1.2240

Grados de libertad= k-2= 5-2= 3 2 X 0.05= 7.81473 Como 5.7859 < 7.81473; No se rechaza la H0.

Ejercicio. Suponga que el número de llamadas telefónicas que entran al conmutador de una empresa durante intervalos de un minuto tiene una distribución de Poisson. Use α=0.10 y los siguientes datos para probar la hipótesis de que las llamadas que entran tienen una distribución de Poisson. Número de llamadas Frecuencia observada 0 15 1 31 2 20 3 15 4 13 5 4 6 2 Total 100 Solución:



(0)(15)  (1)(31)  (2)(20)  (3)(15)  (4)(13)  (5)(4)  (6)(2) 2 100

e f ( x)  x

Probabilidades de Poisson:



2

(2) ( e)  0.135 0! 1 2 (2) (e) f (1)   0.270 1! 2 2 (2) ( e) f ( 2)   0.270 2! 3 2 (2) ( e) f (3)   0.180 3! 4 2 (2) ( e) f ( 4)   0.090 4! 5 2 ( 2) ( e) f (5)   0.036 5! 6 2 ( 2) (e) f ( 6)   0.012 6!

f ( 0) 

Frecuencias esperadas: e0= (0.135)(100)= 13.5 e1= (0.270)(100)= 27 e2= (0.270)(100)= 27 e3= (0.180)(100)= 18 e4= (0.090)(100)= 9 e5= (0.036)(100)= 3.6 e6= (0.012)(100)= 1.2

 f  e   (15  13.5)  (31  27)  (20  27)  (15  18)  (13  9)  (4  3.6)  (2  1.2) 2

X  i1 k

 5.429

13.5

Grados de libertad= k - 2= 7- 2= 5 2 X 0.05=9.24

100

3.6

1.2

Como 5.429 < 9.24; No se rechaza la H0.

2.1.3 TABLAS DE CONTINGENCIA. En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa, nominales u ordinales. Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo: Diestro Zurdo TOTAL Hombre 43 9 52 Mujer 44 4 48 TOTAL 87 13 100 Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con el test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes. El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más 2 simple es el coeficiente phi que se define por φ = √(χ / N) 2 donde χ se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.

2.2 ANÁLISIS DE VARIANZA. En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). El procedimiento del análisis de varianza en una dirección se ocupa de la prueba para diferencias entre k medias muestrales cuando los sujetos son asignados de manera aleatoria a cada uno de los diferentes grupos de tratamiento. La ecuación lineal, o modelo, que representa el diseño completamente aleatorizado de un factor es: Xij= µ + αk + ik Donde:

101

Xij = Valor de la observación i para el tratamiento j µ= La media general de todas las k poblaciones en tratamiento αk= Efecto del tratamiento en el grupo k del cual se tomó la muestra ik= Error aleatorio debido al proceso de muestreo ( es la letra griega épsilon) En el análisis de varianza en una dirección, las hipótesis nula y alternativa se plantean como sigue: H0: µ1 = µ2 = … = µk H1: no todas las medias de población son iguales O lo que es equivalente H0: αk = 0 H1: αk ≠ 0 Las formulas de la media y la varianza del tratamiento j son las siguientes.

 x ij  x j 



x

ij 2

i 1



i 1

nj 1

La media general de las muestras, representada por

x , es la suma de todas las observaciones dividida k

entre el número total de observaciones. Esto es

x

 x j 1 i 1

Donde nT= n1 + n2 + … + nK Si el tamaño de cada muestra es n, nT = kn, en ese caso, la ecuación se reduce a nj

x

 x j 1 i 1



x j 1

En otras palabras, cuando los tamaños de las muestras son iguales, la media muestral general es justamente el promedio de las medias de las k muestras. nj= número de observaciones para el j-ésimo tratamiento ̅ Media de la muestra del j-ésimo tratamiento 2 S j= Varianza de la muestra del j-ésimo tratamiento Sj= Desviación estándar de la muestra del j-ésimo tratamiento Cuadrado medio debido a tratamientos Donde SSTR 

MSTR 

 n x j  x k

SSTR k 1

j 1

SSTR= Suma de cuadrados debido a tratamientos Cuadrado medio debido al error MSE  Donde SSE 

 n j 1

SSE nT  k

 1 s j

SSE= Sumas de cuadrados debido al error Estadístico de prueba

102

F

MSTR MSE

Regla de rechazo: con el estadístico de prueba: Rechazar H 0 si F>Fα Grados de libertad k – 1 en el numerador y nT – k en el denominador Ejemplo. La empresa National Computer Products. INC fabrica impresoras y máquinas de fax en plantas de Atlanta, Dallas y Seattle, en Estados Unidos. Para evaluar los conocimientos de sus empleados acerca de la administración de la calidad total, se tomo una muestra aleatoria de seis empleados en cada planta y se les sometió a un examen de conciencia de la calidad. Las calificaciones de esos 18 empleados se presentan en la tabla siguiente. También se proporcionan las medias, varianzas y desviaciones estándar de las muestras para cada grupo, con estos datos los gerentes desean probar la hipótesis de que la media de la calificación del examen es igual para las tres plantas. Tabla: Calificaciones en el examen de 18 empleados Observación 1 2 3 4 5 6 Media de la muestra Varianza de la muestra Desviación estándar de la muestra

Planta 1 Atlanta 85 75 82 76 71 85 79 34 5.83

Planta 2 Dallas 71 75 73 74 69 82 74 20 4.47

Solución: H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales nj

x

 x j 1 i1



x j 1





79  74  66  73 3



SSTR   n j x j  x  6 (79  73)2  6 (74  73)2  6 (66  73)2  516 k

j 1

SSTR 516   258 k 1 2

MSTR  O bien

 x ij  x j  nj



i 1

nj 1

2 2 2 (79  73)  (74  73)  (66  73) 86    43 31 2

 = n Sj = (6)(43)=258 2

SSE   n j  1s j  (6  1)(34)  (6  1)(20)  (6  1)(32)  430 2

j 1

MSE 

103

SSE 430   28.67 nT  k 18  3

Planta 3 Seattle 59 64 62 69 75 67 66 32 5.66

O bien Estimación de  dentro de tratamiento es 2

F



34  20  32  28.67 3

MSTR 258  9 MSE 28.67

Grados de libertad k – 1= 3 – 1 = 2 nT – k = 18 – 3 = 15 Valor de la tabla 3.68 Se rechaza la H0 por que 9 >3.68 Ejercicio. De tres poblaciones se toman muestras de cinco observaciones cada una. Los datos obtenidos son los siguientes: Observación Muestra 1 Muestra 2 Muestra 3 1 32 44 33 2 30 43 36 3 30 44 35 4 26 46 36 5 32 48 40 Promedio de la muestra 30 45 36 Varianza de la muestra 6 4 6.5 2 a) Calcule la estimación de  entre tratamientos 2 b) Calcule la estimación de  dentro de tratamientos c) ¿Se puede rechazar la hipótesis nula de que las medias de las tres poblaciones son iguales? Explique por qué Solución: a) H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales nj

x

 x j 1 i1





x j 1





30  45  36  37 3

SSTR   n j x j  x  5 (30  37)2  5 ( 45  37)2  5 (36  37)2  570 k

j 1

SSTR 570   285 k 1 2

MSTR  b) k

SSE   n j  1s j  (5  1)(6)  (5  1)(4)  (5  1)(6.5)  66 2

j 1

MSE  c)

104

SSE 66   5.5 nT  k 15  3

F

MSTR 285   51.818 MSE 5.5

Grados de libertad k – 1= 3 – 1 = 2 nT – k = 15 – 3 = 12 Valor de la tabla 3.89 Se rechaza H0 por que 51.818 >3.89

2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA). PENDIENTE

2.3 PAQUETE COMPUTACIONAL. 2.1.1 PRUEBA DE INDEPENDENCIA. Ejemplo. La siguiente tabla de contingencia de 2x3 contiene las frecuencias observadas en una 2 muestra de 200. Pruebe la independencia entre las variables de renglón y de columna usando x con α= 0.025.

Variable de renglón

Variable de columna B 44 26 70

A 20 30 50

P Q Total

Total C 50 30 80

114 86 200

Solución: H0: La variable de columna es independiente de la variable de renglón. H1: La variable de columna no es independiente de la variable de renglón. (

ó ñ

)(

)

Frecuencias esperadas

(114)(50)  28.5 200 (86)(50) e21  200  21.5

(114)(70)  39.9 200 (86)(70) e22  200  30.1



(114)(80)  45.6 200 (86)(80) e23  200  34.4



A 28.5 21.5

P Q

B 39.9 30.1



C 45.6 34.4

 f ij  eij   (20  28.5)  (44  39.9)  (50  45.6)  (30  21.5)   2

28.5



39.9

( 26  30.1) (30  34.4)   7.86 30.1 34.4 2

Grados de libertad= (n-1)(m-1)= (2-1)(3-1)= (1)(2)= 2

105

45.6

21.5

2 0.025=

7.37776

Como 7.86 > 7.37776; Se rechaza la H0. Esto es, se llega a la conclusión de que la variable de columna no es independiente de la variable de renglón.

Solución con el software: Abrir el software MINITAB y se teclean los datos de frecuencias observadas en las columnas correspondientes. Por ejemplo C1

Columna A

Columna B

Columna C

Después: Paso 1. Seleccione el menú desplegable Stat Paso 2. Seleccione el menú desplegable Tables Paso 3. Elija Chi-Square Test Paso 4. Cuando aparezca el cuadro de dialogo Chi-Square Test: Teclee C1-C3 en el cuadro Columns containing the table Seleccione OK El valor p es 0.020 con p < 0.025, se rechaza H0.

Chi-Square Test: COLUMNA A, COLUMNA B, COLUMNA C

Expected counts are printed below observed counts Chi-Square contributions are printed below expected counts

106

COLUMNA A

COLUMNA B

COLUMNA C

Total

114

28.50

39.90

45.60

2.535

0.421

0.425

21.50

30.10

34.40

3.360

0.558

0.563

Total

200

Chi-Sq = 7.863, DF = 2, P-Value = 0.020

Como 0.020 < 0.05 Se rechaza la H0. 2.1.2 PRUEBA DE LA BONDAD DE AJUSTE. Ejemplos: 1. Pruebe las siguientes hipótesis con la prueba de bondad de ajuste ji cuadrada: H0: pA= 0.40, pB= 0.40, pC= 0.20 H1: Las proporciones de la población no son pA= 0.40, pB= 0.40, pC= 0.20 Con una muestra de tamaño 200 se obtuvieron 60 en la categoría A, 120 en la B y 20 en la C. use α= 0.01 y pruebe si las proporciones son las que establece H0 Solución: Frecuencias reales: f1= 60 f2= 120 f3= 20 Frecuencias esperadas: e1= (200)(0.40)= 80 e2= (200)(0.40)= 80 e3= (200)(0.20)= 40

 f  e   (60 80) 2

X  i 1 2

(120  80) (20  80)    35 80 80

Grados de libertad= k-1= 3-1= 2 2 X 0.01= 9.21034 Como 35 > 9.21034; Se rechaza la H0. Esto es, la proporción de población no es lo que dice H0. Solución con el software: El usuario debe obtener las frecuencias observadas, calcular las frecuencias esperadas, y teclear tanto las frecuencias observadas como las esperadas en una hoja de cálculo MINITAB. La columna C1 se etiqueta como observada y contiene las frecuencias observadas. La columna C2 se identifica como esperadas y contiene las frecuencias esperadas: Por ejemplo

107

Observada

Esperada

120

Después: Paso 1. Seleccione el menú desplegable Calc Paso 2. Seleccione la opción Calculator Paso 3. Cuando aparezca el cuadro de dialogo calculator: Teclee ChiSquare en el cuadro Store result in variable Teclee Sum ((Observada-Esperada)**2/Esperada) en el cuadro Expression Seleccione OK Paso 4. Seleccione el menú desplegable Calc Paso 5. Seleccione Probability Distributions Paso 6. Elija Chi-Square Paso 7. Cuando Aparezca el cuadro de diálogo Chi-Square Distribution Seleccione Cumulative Probability Teclee 2 en el cuadro Degrees of freedom Seleccione Input Column y teclee ChiSquare en el cuadro Teclee Cumprob en el cuadro Optional Storage Seleccione OK Paso 8. Seleccione el menú desplegable Calc Paso 9. Elija Calculator Cuando aparezca el cuadro de diálogo calculator: Teclee valor p en el cuadro Store results in variable Teclee 1-Cumprob en el cuadro Expression Seleccione OK

108

El valor p es 0.020 con p < 0.05, se rechaza H0.

Ejemplos: 1. En la tabla siguiente se presentan datos acerca del número de ocurrencias de un evento por período y las correspondientes frecuencias observadas. Use α= 0.05 y la prueba de bondad de ajuste para ver si los datos se ajustan a una distribución de Poisson. Cantidad de ocurrencia 0 1 2 3 4 Total

Frecuencia observada 39 30 30 18 3 120

Solución:



(0)(39)  (1)(30)  (3)(18)  (4)(3)  1.3 120

e Probabilidades de Poisson f ( x )  x



1.3

Frecuencias esperadas: e0= (0.2725)(120)= 32.7 e1= (0.3542)(120)= 42.504 e2= (0.2302)(120)= 27.624 e3= (0.0997)(120)= 11.964 e4= (0.0324)(120)= 3.888

 f e   (39  32.7)  (30  42.504)  (30  27.624)  (18  11.964)  (3  3.888) 2

X  i1 2

 8.344

32.7

Grados de libertad= k-2= 5-2= 3 2 X 0.05= 7.81473

109

42.504

27.624

11.964

3.888

Como 8.344 > 7.81473; Se rechaza la H0. Esto es se llega a la conclusión de que los datos no tienen una distribución de probabilidad de de Poisson. Cantidad de ocurrencia Frec. Observada

Media Poisson 1.3

Frec. esperada ChiSquare

0.272532

32.7038

0.354291

42.5149

0.230289

27.6347

0.099792

11.9750

0.032432

3.8918

8.33424

2.2.1 INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA). Ejemplo. La empresa National Computer Products. INC fabrica impresoras y máquinas de fax en plantas de Atlanta, Dallas y Seattle, en Estados Unidos. Para evaluar los conocimientos de sus empleados acerca de la administración de la calidad total, se tomo una muestra aleatoria de seis empleados en cada planta y se les sometió a un examen de conciencia de la calidad. Las calificaciones de esos 18 empleados se presentan en la tabla siguiente. También se proporcionan las medias, varianzas y desviaciones estándar de las muestras para cada grupo, con estos datos los gerentes desean probar la hipótesis de que la media de la calificación del examen es igual para las tres plantas. Tabla: Calificaciones en el examen de 18 empleados Observación 1 2 3 4 5 6 Media de la muestra Varianza de la muestra Desviación estándar de la muestra

Planta 1 Atlanta 85 75 82 76 71 85 79 34 5.83

Planta 2 Dallas 71 75 73 74 69 82 74 20 4.47

Solución: H0: µ1 = µ2 = µ3 H1: no todas las medias de población son iguales nj

x

 x j 1 i1





x j 1



79  74  66  73 3



SSTR   n j x j  x  6 (79  73)2  6 (74  73)2  6 (66  73)2  516 k

j 1

MSTR 

110

SSTR 516   258 k 1 2

Planta 3 Seattle 59 64 62 69 75 67 66 32 5.66

O bien

 x ij  x j  nj



i 1

nj 1

2 2 2 (79  73)  (74  73)  (66  73) 86    43 31 2

 = n Sj = (6)(43)=258 2

SSE   n j  1s j  (6  1)(34)  (6  1)(20)  (6  1)(32)  430 2

j 1

MSE 

SSE 430   28.67 nT  k 18  3

O bien Estimación de  dentro de tratamiento es 2

F



34  20  32  28.67 3

MSTR 258  9 MSE 28.67

Grados de libertad k – 1= 3 – 1 = 2 nT – k = 18 – 3 = 15 Valor de la tabla 3.68 Se rechaza la H0 por que 9 >3.68 Solución con el software: Los datos de las muestras se registran por columnas separadas en una hoja de trabajo de MINITAB, después de capturar dichos datos siguen los siguientes pasos: Paso 1. Seleccione el menú desplegable Stat Paso 2. Seleccione ANOVA Paso 3. Seleccione Oneway (unstacked) Paso 4. Cuando aparezca el cuadro del dialogo Oneway Analysis of Variance: Teclee C1-C3 en el cuadro Responses (in separate columns) Seleccione Ok Atlanta Dallas Seattle 85

111

One-way ANOVA: Atlanta, Dallas, Seattle Source

Factor

516.0

258.0

9.00

0.003

Error

430.0

28.7

Total

946.0

S = 5.354

R-Sq = 54.55%

R-Sq(adj) = 48.48%

Individual 95% CIs For Mean Based on Pooled StDev Level

Mean

StDev

Atlanta

79.000

5.831

Dallas

74.000

4.472

Seattle

66.000

5.657

--------+---------+---------+---------+(-------*------) (------*-------) (-------*-------) --------+---------+---------+---------+66.0

Pooled StDev = 5.354 El valor p es 0.003 con p < 0.05, se rechaza H0.

112

72.0

78.0

84.0

UNIDAD 2

113

114

ACTIVIDAD 1. COMPLETAR TEMA FALTANTE DE LA UNIDAD

Instituto Tecnológico Superior de Coatzacoalcos

Febrero/2014 – Junio/2014 Nombre del Alumno

ORTIZ

MEDINA

Apellido Paterno

TANIA GUADALUPE

Apellido Materno

Nombre(s)

Reporte de Investigación ASIGNATURA: ESTADISTICA II

Nombre del Docente

CARRERA:

115

LOPEZ

DE LOS SANTOS

EDUARDO

Apellido Paterno

Apellido Materno

Nombre(s)

ING.ADMINISTRACIÓN

Semestre:

4º

Grupo:

“A”

No. Control:

12081419

Fecha de inicio:

FEB/14

Fecha de término:

JUN/14

INTRODUCCIÓN

El procedimiento del análisis de varianza en una dirección se ocupa de la prueba para diferencias entre k medias muéstrales cuando los sujetos son asignados de manera aleatoria a cada uno de los diferentes grupos de tratamiento. El objetivo básico de la inferencia estadística es hacer inferencias o sacar conclusiones sobre la población a partir de la información contenida en una muestra aleatoria de la población. Más específicamente, podemos decir que la inferencia estadística consiste en el proceso de selección y utilización de un estadístico maestral, mediante el cual, utilizando la información que nos proporciona una muestra aleatoria, nos permite sacar conclusiones sobre características poblacionales. El análisis de la varianza (ANOVA, ANalysis Of VAriance, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.

116

2.2.2 INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA). Además de comparar la varianza de dos poblaciones, el principal objetivo de este tema es analizar el cociente que se obtiene al aplicar la fórmula correspondiente.

(Prueba de Homogeneidad de varianzas) De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se encuentran igualmente dispersos. Una forma clara de interpretación de la importancia de la homogeneidad de varianzas se puede apreciar en el siguiente ejemplo: Supongamos que estamos comparando el rendimiento promedio de los alumnos de una asignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentes profesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma; pero sin embargo, las notas pueden tener diferente variabilidad.

117

Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, por la forma de la campana, tienen diferente varianza. Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de varianzas, a fin de comprobar si ellas son homogéneas o no. Una aplicación de esta razón podría ser bastante significativa en un caso en el que las medias no son muy explicativas. Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de la diferencia de medias o proporciones muéstrales en el caso de dos poblaciones, así también podemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo al parámetro como y su estimador . Este estudio lo haremos tomando en cuenta el intervalo de confianza y la prueba de hipótesis para . Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población N(m1, s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población N(m2, s2²). Si

son los estadísticos de la primera muestra, de tamaño n 1 y

son los estadísticos de la segunda muestra, de tamaño n 2 en donde

así como que poblacionales

118

entonces diremos

es un estimador puntual para la razón o el cociente de las varianzas .

De manera que si

es el estimador de

definiremos la variable aleatoria:

Tal que F à F (n1 – 1, n2 – 1) Por tanto las pruebas de hipótesis a plantearse, usando el estadístico

Con n1 – 1 grados de libertad en el numerador y n2 – 1 grados de libertad en el denominador, serán:

Y en cuanto al Intervalo de confianza del (1-a) x100% para

será

. El análisis de varianza (ANOVA) es una técnica estadística diseñada para comparar la varianza de dos poblaciones a partir del análisis de las varianzas de las muestras

119

respectivas. Webster (1998) aplica el concepto de ANOVA al contexto de un experimento y la define como “... el procedimiento que se puede aplicar a la determinación de si un tratamiento en particular aplicado a una población tendrá efecto significativo sobre su media,”. Aplicar el ANOVA requiere cumplir con dos criterios específicos: a1) Las poblaciones de estudio deber ser normales y tener varianzas iguales. a2) Seleccionar las muestras independientemente. La varianza total de todos los tratamientos (observaciones) se puede dividir en dos fuentes: a) Variación Intermuestral. Factor que representa la variación entre los diversos tratamientos administrados durante el desarrollo de un experimento. b) Variación Intramuestral o debida al Error. Factor que representa la variación dentro de un mismo tratamiento administrado durante la realización de un experimento.

120

Prueba de varianza con dos poblaciones. Ejemplo: Carla Mitchell, analista de los laboratorios Abbott, un fabricante nacional de medicamentos, está preocupada por la calidad de uno de sus productos. Abbott compra el material para fabricar este producto a dos proveedores. El nivel de defectos en la materia prima es aproximadamente el mismo entre los dos proveedores, pero Carla está preocupada por la variabilidad que existe de un embarque a otro. Si el nivel de defectos tiende a variar en forma excesiva para uno proveedor, puede afectar la calidad del medicamento. Para comparar la variación relativa de los dos proveedores, Carla selecciona 11 embarques de cada uno y mide los porcentajes de defectos en la materia prima, junto con la desviación estándar. Los resultados son: S1 = 0,61 n1= 11 (proveedor 1) S2= 0,29 n2= 11 (proveedor 2)

significancia de 0,05.

mayor que para el proveedor 2.

H0:

12 -

22 < 0

H1:

12 -

22 > 0

-1) = (11 - 1) = 10 gl2 = (n2 - 1) = (11 - 1) = 10 F es 2,97. La regla de decisión es Si el cociente F calculado es mayor que 2,97, se rechaza H0 (se rechaza H0 si F > 2,97) S12 (0.61)2 ----- = -------- = 4.42 S22 (0.29)2

121

Una de las varianzas muestras es 4,42 veces la otra. La hipótesis nula se rechaza porque el estadístico (2,97). Carla debe concluir que la variabilidad en los niveles de defectos de los embarques para el proveedor 1 es mayor que para los del proveedor 2. ANALISIS DE LA VARIANZA CON DOS CRITERIOS DE CLASIFICACIÓN Anova con dos criterios En ocasiones, es deseable identificar dos causas posibles para las diferencias en la variable dependiente. Si es el caso, se lleva a cabo un programa ANOVA con dos criterios de clasificación, donde se identifican dos causas posibles para la variabilidad de la variable dependiente. Se toman al azar dos muestras de la población de interés y se usan los resultados maestrales para probar la hipótesis nula relevante. EJEMPLO Hace un par de ejemplos, el analista intentó determinar si había alguna diferencia en el promedio en dólares por compra entre tres tiendas. ¿Qué ocurre si también quiere determinar si existe alguna diferencia en el promedio de compra debida a los efectos de dos campañas distintas de publicidad? Los datos de la tabla número 1 del ejemplo del que estamos tratando se vuelven a disponer de manera que se puedan examinar usando dos criterios de clasificación para el análisis de varianza. Hay tres grupos en el factor 1 (tiendas) y dos grupos en el factor 2 (campañas de publicidad). Se tomó una muestra de tres elementos (n=3) y se tomaron medidas para cada una de las seis celdas de la tabla (3 *2 = 6). Tabla número 5 Datos maestrales (dólares) de ANOVA para el ejemplo. Campaña de Publicidad TIENDA 1 TIENDA 2 TIENDA 3 MEDIAS ---------------------------------------------------------------------------------------------------------- 12,05 15,17 9,48 A (16,87) 23,94 (17,75) 18,52 (8,96) 6,92 14,53 14,63 19,57 10,47 25,78 21,4 7,63 B (20,58) 17,52 (18,52) 13,59 (8,48) 11,90 15,86 18,45 20,57 5,92

122

---------------------------------------------------------------------------------------------------------MEDIAS 18,73 18,14 8,72 15,20 Media global 15,20 r = 2 c=3 n=3 

Media tienda 1 18,73



Media tienda 2 18,14



Media tienda 3 8,72



Media campaña A 14,53



Media campaña B 15,86



Media tienda 1 y campaña A 16,87



Media tienda 2 y campaña A 17,75



Media tienda 3 y campaña A 8,96



Media tienda 1 y campaña B 20,58



Media tienda 2 y campaña B 18,52



Media tienda 3 y campaña B 8,48

123

CONCLUSIÓN La Inferencia Estadística comprende los métodos que son usados para obtener conclusiones de la población en base a una muestra tomada de ella. Incluye los métodos de estimación de parámetros y las pruebas de hipótesis. Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en un estadístico maestral, es decir, en la información proporcionada por la muestra (formalmente definimos un estadístico como una función de las observaciones muéstrales). La elección del estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. Con la inferencia de la varianza de dos poblaciones podemos también tomar decisiones respecto a los resultados obtenidos, ya que te muestra claramente si los resultados son convenientes. Respecto al Anova, este modelo estadístico nos sirve en este tipo de temas ya que básicamente lo que se busca analizar la varianza de cada resultado de manera explicativa.

BIBLIOGRAFÍA  http://www.aulaclic.es/minitab/t_4_29.htm

 http://www.eumed.net/libros-gratis/2006c/203/2r.htm

 http://www.tesoem.edu.mx/alumnos/cuadernillos/2010.031.pdf

 http://www.docstoc.com/docs/122845154/Inferencia-para-dos-poblaciones

124

ACTIVIDAD 2. FINALIDAD DE LOS TEMAS DE LA U2.

125

126

127

128

129

ACTIVIDAD 3. MAPAS EN XMIND DE CHI-CUADRADA Y ANÁLISIS DE VARIANZA

130

131

ACTIVIDAD 4. ENSAYO SOBRE CHI-CUADRADO

132

133

 EXPOSICIÓN (02-ABRIL-2014) MÉTODO DENTRO Y MÉTODO ENTRE INFERENCIA SOBRE LA VARIANZA DE DOS POBLACIONES (ANOVA).

METODO DENTRO El método dentro de estimación de la varianza produce una estimación válida sin importar si la hipótesis nula de las medias poblacionales iguales es cierta o no. Esto se debe a que la variabilidad de los valores de la muestra se determina comparando cada elemento en los datos con la media muestral. Cada valor de la muestra obtenido de la población A se compara con la media muestral A; cada elemento obtenido de la población B se compara con la media muestral B, y así sucesivamente. La ecuación para calcular la estimación de la varianza con el método dentro es: ∑ (xij-xj) = sw2 = (xij - xj)2 c (n - 1) Grados de libertad = c (n - 1) Dónde: 

sw2 = Estimación de la varianza muestral con el método dentro.



xij = i-ésimo elemento de los datos de grupo j.



xj = media del grupo j



c = número de grupos



n = número de elementos de la muestra en cada grupo. Pasos para realizar el método dentro:

1.- Primero, se encuentran las diferencias entre cada valor x y la media del grupo, se elevan al cuadrado y se suman. 2.- Después, se agregan estas sumas para cada grupo. El resultado es la suma del cuadrado de las desviaciones entre cada medida de la muestra y la media de su grupo. Este valor con frecuencia se llama la suma de cuadrados dentro (scw). 3.- Esta suma se divide después entre el número adecuado de grados de libertad para poder producir una estimación de la varianza desconocida de la población.

134

4.- El número adecuado de grados de libertad para el método dentro se calcula como c(n-1) si el número de observaciones en cada grupo es igual. Como a cada elemento del grupo se le resta la media de ese grupo, sólo (n-1) elementos de cada grupo pueden variar. Además como se tienen c grupos, c se multiplica por (n-1) para obtener los grados de libertad para el método dentro. EJEMPLO 1.- Se obtienen muestras del peso del llenado de cuatro paquetes de espinacas congeladas, a partir de tres contenedores. La pregunta es si los pesos promedio de los paquetes son iguales o diferentes entre los tres contenedores. Seguidamente se ofrecen los pesos de la muestra (en onzas), medias de grupos, media global y estimación de la varianza con el método dentro usando la ecuación correspondiente. GRUPO 1

MEDIA

GRUPO 2 12.4 13.7 11.5 10.3 12

GRUPO 3 11.9 9.3 12.1 10.6 11

10.3 12.4 11.9 10.2 11.2

Media Global 11.4

SOLUCION 

(xi - x1)2 = (12.4 - 12)2 + (13.7 - 12)2 + (11.5 - 12)2 + (10.3 - 12)2 = 6.19



(xi - x2)2 = (11.9 - 11)2 + (9.3 - 11)2 + (12.1 - 11)2 + (10.6 - 11)2 = 5.07



(xi - x3)2 = (10.3 – 11.2)2 + (12.4 – 11.2)2 + (11.9 – 11.2)2 + (10.2 – 11.2)2 = 3.74

Suma total (xi-x1)= 6.19 + 5.07 + 3.74= 15 Sacar grados de libertad= m (n-1) = 3(4-1) 9 Sw2= 15/9= 1.67 Cada valor x en la muestra se compara con la media de su propio grupo. Estas diferencias se elevan al cuadrado y se suman de acuerdo con la ecuación anteriormente descrita. Los valores que resultan se suman y se dividen entre los grados de libertad. El resultado, 1.67, es una estimación de la varianza común de las tres poblaciones. Con frecuencia el término SW2 se denomina error cuadrático medio (MSE).

135

La razón de esto es que el método dentro produce una estimación válida de la varianza desconocida de la población, sin importar el estado de H0. EJEMPLO 2.- Se pidió a cuatro personas que beben una marca determinada de café que registraran el número de tazas consumidas por día. Lo mismo se hizo con bebedores de otras tres marcas. Los resultados se muestran en la tabla. Estime la varianza poblacional común mediante el método dentro. MARCA A 3 2 5 6 MEDIA 4

MARCA B 5 1 4 6 4

MARCA C 2 10 5 7 6

MARCA D 3 6 4 5 4.5

Media Global 4.625 SOLUCION (xi - x1)2 = (3 - 4)2 + (2 - 4)2 + (5 - 4)2 + (6 - 4)2 = 10

 

(xi - x2)2 = (5 - 4)2 + (1 - 4)2 + (4 - 4)2 + (6 - 4)2 = 14



(xi - x3)2 = (2 - 6)2 + (10 - 6)2 + (5 - 6)2 + (7 - 6)2 = 34



(xi - x4)2 = (3 – 4.5)2 + (6 – 4.5)2 + (4 – 4.5)2 + (5 – 4.5)2 = 9.25

Suma total= (xij - xj)2= 10 + 14 + 34 + 9.25= 67.25 Grados de libertad =m (n-1) =4(4-1) 12 sw2=67.25/12= 5.60416.... varianza poblacional común.

136

UNIDAD III

ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MÚLTIPLE

137

UNIDAD 3. ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MULTIPLE. 3.1 ESTIMACIÓN MEDIANTE LA LINEA DE REGRESIÓN. 3.1.1 DIAGRAMA DE DISPERSIÓN. 3.1.2 MÉTODO DE MÍNIMOS CUADRADOS. 3.1.3 INTERPRETACIÓN DEL ERROR ESTÁNDAR DE LA ESTIMACIÓN. 3.1.4 INTERVALOS DE PREDICCIÓN APROXIMADOS. 3.1.5 ANÁLISIS DE CORRELACIÓN. 3.1.6 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS. 3.1.7 REGRESIÓN MÚLTIPLE Y ANÁLISIS DE CORRELACIÓN. 3.1.8 USOS DE VARIABLES FICTICIAS. (Pendiente) 3.1.9 RESIDUALES Y GRÁFICAS DE RESIDUALES. (Pendiente) 3.1.10 INTERPRETACIÓN DEL INTERVALO DE CONFIANZA. (Pendiente) 3.1.11 USO DEL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE. (Pendiente) 3.1.12 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS.

138

UNIDAD 3. ANÁLISIS DE REGRESIÓN, CORRELACIÓN LINEAL SIMPLE Y MULTIPLE. 3.1 ESTIMACIÓN MEDIANTE LA LINEA DE REGRESIÓN. Muchas veces las decisiones gerenciales se basan en la relación entre dos o más variables. Por ejemplo, después de revisar la relación entre los gastos de publicidad y las ventas, un gerente de mercadotecnia podría tratar de predecir las ventas para determinado nivel de gastos de publicidad. En otro caso, una empresa de electricidad podría usar la relación entre la temperatura máxima diaria y la demanda de electricidad para predecir el consumo de energía con base en las temperaturas máximas pronosticadas para el mes siguiente. A veces, un administrador confía en su intuición para juzgar como se relacionan dos variables. Sin embargo, si se pueden obtener datos, y si se puede emplear un procedimiento estadístico llamado análisis de regresión para plantear una ecuación que muestre cómo dependen las variables entre sí, sería mejor. En la terminología de la regresión, la variable que se va a predecir se llama variable dependiente. La o las variables que se usan para predecir el valor de la variable dependiente se llaman variables independientes. Por ejemplo, para analizar el efecto de gastos de publicidad sobre las ventas, el deseo de un gerente de mercadotecnia, de predecir las ventas, nos sugiere que “ventas” sea la variable dependiente. Los gastos de publicidad serían la variable independiente que se usa para poder predecir las ventas. En notación estadística, “y” representa la variable dependiente y “x” la variable independiente. El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria. En esta unidad se describirán el tipo más sencillo de análisis de regresión, donde intervienen una variable independiente y una variable dependiente, y la relación entre ellas se aproxima mediante una línea recta. A esto se le llama regresión lineal simple. El análisis de regresión donde intervienen dos o más variables independientes se llama análisis de regresión múltiple.

3.1.1 DIAGRAMA DE DISPERSIÓN. El diagrama de dispersión permite observar gráficamente los datos y hacer conclusiones preliminares acerca de la relación posible entre las variables. Un diagrama de dispersión es una gráfica en la que se traza cada uno de los puntos que representan un par de valores observados para las variables dependiente e independiente. El valor de la variable independiente se grafica con respecto al eje horizontal, y el valor de la variable dependiente se traza con respecto al eje vertical. Los diagramas de dispersión o gráficos de correlación permiten estudiar la relación entre 2 variables. Dadas 2 variables X e Y, se dice que existe una correlación entre

139

ambas si cada vez que aumenta el valor de X aumenta proporcionalmente el valor de Y (Correlación positiva) o si cada vez que aumenta el valor de X disminuye en igual proporción el valor de Y (Correlación negativa). En un gráfico de correlación representamos cada par X, Y como un punto donde se cortan las coordenadas de X e Y.

a) Relación lineal directa (fuerte)

c) Relación lineal directa (débil)

d) Relación exponencial

b) Relación lineal inversa (fuerte)

d) Relación nula (sin relación)

e) Relación compleja

3.1.2 MÉTODO DE MÍNIMOS CUADRADOS.

140

El método de mínimos cuadrados es un procedimiento para encontrar la ecuación de regresión estimada usando datos de una muestra. En el método de los mínimos cuadrados se emplean los datos de la muestra para determinar los valores de b0 y b1 que minimizan la suma de los cuadrados de las desviaciones entre los valores observados de la variable independiente “xi”, y los valores estimados de la variable dependiente “yi”. ̅̅ ̅

∑ ∑ ̅

̂ Donde: b1= Pendiente de la línea de regresión estimada b0= Ordenada al origen de la línea de regresión estimada ̂ = Ecuación de regresión X= Valor de la variable independiente Y= Valor de la variable dependiente n= Número total de observaciones ̅ = Valor medio de la variable independiente ̅ = Valor medio de la variable dependiente Ejemplo. La tabla siguiente presenta datos muéstrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la calificación de un estudiante que le dedico 30 horas al estudio de la materia. Estudiante muestreado 1 2 3 4 5 6 7 8 Total Solución:

141

Horas de estudio X 20 16 34 23 27 32 18 22 192

Calif. en el exam. Y

64 61 84 70 88 92 72 77 608

1280 976 2856 1610 2376 2944 1296 1694 15032

400 256 1156 529 729 1024 324 484 4902

a) ∑

b) ̅ ̅

∑

̅̅

∑

( )(

)(

( )(

(

) )

)(

)

̂ ̂

(

)(

)

Ejercicio. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la altura de un hijo si el padre mide 75 pulgadas

Altura del padre X 65 63 67 64 68 62 70 66 68 67 69 71 X= 800 Solución: a) ∑

b) ̅ ̅

142

∑

Altura del hijo Y 68 66 68 65 69 66 68 65 71 67 68 70 Y=811

4420 4225 4158 3969 4556 4489 4160 4096 4692 4624 4092 3844 4760 4900 4290 4356 4828 4624 4489 4489 4692 4761 4970 5041 2 XY=54107 X =53418

∑

̅̅

∑

(

)( (

(

)( )((

)(

) ) )

)

̂ c)

(

)(

)

3.1.3 INTERPRETACIÓN DEL ERROR ESTÁNDAR DE LA ESTIMACIÓN. El error estándar del estimador es la desviación estándar condicional de la variable dependiente “Y”, dado un valor de la variable independiente “X”. Para datos poblacionales, el error estándar del estimador se representa mediante el símbolo Y,X. la formula de desviaciones que permite estimar este valor con base en datos muestrales es: ∑(

√

̂)

∑

√

∑

Ejemplo. La tabla siguiente presenta datos muestrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine, el error estándar del estimador. Estudiante Horas de Calif. en XY X2 Y2 muestreado estudio el (X) exam. (Y) 1 20 64 1280 400 4096 2 16 61 976 256 3721 3 34 84 2856 1156 7056 4 23 70 1610 529 4900 5 27 88 2376 729 7744 6 32 92 2944 1024 8464 7 18 72 1296 324 5184 8 22 77 1694 484 5929 Total 192 608 15032 4902 47094 Solución:

143

√∑(

̂)

√

∑ √

∑ (

)(

∑ )

(

)(

)

√

Ejercicio. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine, el error estándar del estimador. Altura del padre (X) 65 63 67 64 68 62 70 66 68 67 69 71 X= 800

Altura del hijo (Y) 68 66 68 65 69 66 68 65 71 67 68 70 Y=811

4420 4225 4624 4158 3969 4356 4556 4489 4624 4160 4096 4225 4692 4624 4761 4092 3844 4356 4760 4900 4624 4290 4356 4225 4828 4624 5041 4489 4489 4489 4692 4761 4624 4970 5041 4900 2 2 XY=54107 X =53418 Y =54849

Solución: √∑(

̂)

√

∑

(

)(

∑

)

(

)(

)

√

3.1.4 INTERVALOS DE PREDICCIÓN APROXIMADOS. En contraste con los intervalos de confianza, que son estimaciones de parámetros de poblaciones, en un intervalo de predicción se estima un valor individual y es, por lo tanto, un intervalo de probabilidad. Podría parecer posible construir un intervalo de predicción utilizando el error estándar del estimador que se definió en el tema anterior.

144

Sin embargo, ese intervalo estaría incompleto, porque el error estándar del estimador no incluye la incertidumbre asociada con el hecho de que la línea de regresión basada en datos muéstrales incluye también error muestral y, por lo general no es idéntica a la línea de regresión para la población. El error estándar completo para un intervalo de predicción se denomina error estándar del pronóstico, e incluye la incertidumbre asociado con la dispersión vertical con respecto a la línea de regresión y además la incertidumbre asociada con la posición del valor mismo en la línea de regresión. La formula básica para el error estándar del pronóstico es.

(

√

)

√

∑

[

̅) (∑ )

]

Finalmente, el intervalo de predicción para un valor individual de la variable dependiente, utilizando n-2 grados de libertad, es ̂ ( ) Ejemplo. Determine, el intervalo de predicción del 95% para las calificaciones en la materia de estadística, si le dedica 30 hrs. al estudio de la materia. (De acuerdo al ejemplo). Solución: ( (

)

√

∑ √

[

̅) (∑ )

( ]

√

) [

(

)

]

√ gl= n-2= 8-2= 6 ̂ ( ) 85 (2.447)(6.854) 85 16.771 (68.229, 101.771)

Ejercicio. Determine, el intervalo de predicción del 95% para las alturas de los hijos mayores, si el padre mide 75 pulgadas. (De acuerdo al ejercicio). Solución:

145

( (

)

√

∑

[

̅) (∑ )

(

√ ]

) [

√

(

)

]

√

gl= n-2= 12-2= 10 ̂ ( ) 71.5 (2.228)(1.935) 71.5 4.311 (67.189, 75.811)

3.1.5 ANÁLISIS DE CORRELACIÓN. Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. El coeficiente de Correlación, describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables. Para propósitos de cálculo resulta conveniente la siguiente fórmula para el coeficiente de determinación muestral. ̅ ∑ ∑ ̅ ∑ El coeficiente de correlación muestral es: O bien

∑ √ ∑

√ ∑

∑

(∑ ) √ ∑

(∑ )

Ejemplo. Determine, la correlación de los datos. (De acuerdo al ejemplo). Solución:

146

∑

(

√ ∑

∑

(

)(

) ( )( ( )( )

)

√

∑

( )(

(∑ ) √ ∑

(∑ )

√( )(

)

(

)(

√

)

∑

O bien

)(

)

(

)(

)

) √( )(

(

)

(

)

Ejercicio. Determine el coeficiente de correlación. (De acuerdo al ejercicio). Solución: ∑ ∑

)(

(

∑

)( (

∑ √ ∑

(

√ O bien

)

∑

)(

(

)(

)

√ ∑

(∑ ) √ ∑ ( √(

)

)( )

(∑ ) (

)

(

) √(

)( )(

) )

(

)

( )( ) √ √ 3.1.6 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS. Ejemplo. La tabla siguiente presenta datos muestrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados.

147

c) Estime la calificación de un estudiante que dedico 30 horas al estudio de la materia. d) Determine el error estándar del estimador. e) Determine, el intervalo de predicción del 95% para las calificaciones en la materia de estadística, si le dedica 30 hrs. al estudio de la materia. f) Determine el coeficiente de correlación. Estudiante muestreado 1 2 3 4 5 6 7 8 Total

Horas de estudio X 20 16 34 23 27 32 18 22 192

Calif. en el exam. Y

64 61 84 70 88 92 72 77 608

1280 976 2856 1610 2376 2944 1296 1694 15032

400 256 1156 529 729 1024 324 484 4902

4096 3721 7056 4900 7744 8464 5184 5929 47094

Solución: a) b) ̂ c) ̂ d) e) ( ) gl= n-2= 8-2= 6 ̂ ( ) (68.229, 101.771) f) √ O bien

Solución con el software. 1. Habra Minitab, en la celda C1, escriba horas de estudios o “x” y en la columna C2, escriba calificación en el examen o “Y” 2. Haga clic en StatRegressionRegresion 3. En la caja de dialogo, Responce ingrese C2; en Predictors ingrese C1. Haga clic en Options. 4. En la caja de dialogo en Prediction intervals for new observations ingrese 30. Haga clic en Ok. 5. De regreso en la caja de dialogo original, haga clic en Ok.

148

Para graficar, haga clic en StatRegressionRegresionGraphs, seleccione el tipo de grafica y haga clic en Ok y otra vez Ok. Regression Analysis: y versus x a) Residual Plots for y Residuals Versus the Fitted Values

Residual

Percent

Normal Probability Plot of the Residuals

50 10 1

-10

-5

0 Residual

0 -4 -8

Histogram of the Residuals

80 Fitted Value

Residuals Versus the Order of the Data 8

Residual

Frequency

2 1 0

-6

-4

-2

0 2 Residual

0 -4 -8

3 4 5 6 Observation Order

The regression equation is b)y = 40.1 + 1.50 x Predictor

Coef SE Coef

Constant 40.082 x

8.890 4.51 0.004

1.4966 0.3591 4.17 0.006

d) S = 6.15761 f)coef. De determ R-Sq = 74.3% R-Sq(adj) = 70.0% Analysis of Variance Source Regression

1 658.50 658.50 17.37 0.006

Residual Error 6 227.50 37.92 Total

7 886.00

Predicted Values for New Observations New Obs 1 c)84.98

149

Fit SE Fit

95% CI

95% PI

3.06 (77.48, 92.47) e)(68.15, 101.81)

Values of Predictors for New Observations New Obs

1 30.0 3.1.7 REGRESIÓN MÚLTIPLE Y ANÁLISIS DE CORRELACIÓN. Es una extensión del análisis de regresión simple para aplicaciones en las que se usan dos o más variables independientes (predictores) para estimar el valor de la variable dependiente (variable de respuesta). El uso de más variables permite aumentar la precisión de la estimación. La principal ventaja de la regresión múltiple es que nos permite utilizar más información disponible para estimar la variable dependiente. En algunas ocasiones, la correlación entre dos variables puede resultar insuficiente para determinar una ecuación de estimación confiable, sin embargo, si agregamos los datos de mas variables independientes, podemos determinar una ecuación de estimación que describa la relación con mayor precisión. La regresión múltiple y el análisis de correlación implican un proceso de tres pasos como el que usamos en la regresión simple. En este proceso: 1. Describimos la ecuación de regresión múltiple; 2. Examinamos el error estándar de regresión múltiple de la estimación; y 3. Utilizamos el análisis de correlación múltiple para determinar qué también la ecuación de regresión describe los datos observados. La regresión múltiple nos permitirá también ajustar tanto curvas como rectas. Usando las técnicas de variables ficticias. Las variables ficticias y las curvas de ajuste son solamente dos de las muchas técnicas de modelado que se pueden utilizar en la regresión múltiple para aumentar la precisión de nuestras ecuaciones de estimación. Ecuación de estimación que describe la relación entre tres variables ̂ Donde: ̂ = Valor estimado correspondiente a la variable dependiente. a= Ordenada Y X1, X2= Valores de las dos variables independientes. b1 y b2= Pendientes asociadas con X1 y X2 respectivamente. Ecuaciones normales:

na  b1  X 1  b2  X 2   Y a X 1  b1  X 12  b2  X 1 X 2   X 1Y a X 2  b1  X 1 X 2  b2  X 22   X 2Y

150

Ejemplo. Determine los siguientes datos. X1 X2 30 12 47 10 25 17 51 16 40 5 51 19 74 7 36 12 59 13 76 16 489 127

la ecuación de regresión por mínimo cuadrados de acuerdo con Y 94 108 112 178 94 175 170 117 142 211 1401

X1Y

X2Y

X1X2

X12

X22

73665

18571

6173

26565

1793

Solución: na  b1  X 1  b2  X 2   Y a X 1  b1  X 12  b2  X 1 X 2   X 1Y

a X 2  b1  X 1 X 2  b2  X 22   X 2Y 10 a + 489 b1 + 127 b2 = 1 401 489 a + 26 565 b1 + 6 173 b2 = 73 665 127 a + 6 173 b1 + 1 793 b2 = 18 571



 87505739  18.368  4763960  9576442  2.01 b1  2   4763960 ?   4.737 b2  3   4763960 a



̂ ̂ Ejemplo. Determine la ecuación de regresión por mínimo cuadrados de acuerdo con los siguientes datos. X1 X2 Y X1Y X2Y X1X2 X12 X22 45 16 29 42 14 24 44 15 27 45 13 25 43 13 26 46 14 28 44 16 30 45 16 28

151

44 43 441

15 15 147

28 27 272

12 005

4 013

6 485

19 461

2 173

Solución: na   X 1 b1   X 2 b2   Y  X 1 a   X 12 b1   X 1 X 2 b2   X 1Y

 X 2a   X 1 X 2 b1   X 22 b2   X 2Y 10 a + 441 b1 + 147 b2 = 272 441 a + 19 461 b1 + 6 485 b2 = 12 005 147 a + 6 485 b1 + 2 173 b2 = 4 013



?  13.828  ?  ? b1  2   0.564  ?  ? b2  3   1.099  ? a



̂ ̂ 3.1.8 USOS DE VARIABLES FICTICIAS. 3.1.9 RESIDUALES Y GRÁFICAS DE RESIDUALES. 3.1.10 INTERPRETACIÓN DEL INTERVALO DE CONFIANZA. 3.1.11 USO DEL COEFICIENTE DE DETERMINACIÓN MÚLTIPLE. 3.1.12 PAQUETE COMPUTACIONAL PARA LA SOLUCIÓN DE PROBLEMAS. 1) Abra minitab. En la celda C1 escriba “Y”. En la celda C2 escriba “X1”. En la celda C3 escriba “X2”. Ingrese los datos en las columnas respectivas. 2) Haga clic en StatRegressionRegression 3) En la caja de dialogo, en response ingrese: C1.En predictors ingrese: C2-C3. Haga clic en Graphs. 4) En la caja de dialogo para graphs, verifique residuals versus fits. Haga clic en Ok. 5) De regreso en la caja de dialogo original, haga clic en Ok.

152

UNIDAD 3

153

154

ACTIVIDAD 1. EJEMPLOS, GRÁFICAS DE CORRELACIÓN

155

156

ACTIVIDAD 2. 2 EJERCICIOS CON GRÁFICAS DE DISPERSIÓN

DIAGRAMAS DE DISPERSIÓN

EJERCICIO #1. La tabla siguiente presenta datos muéstrales sobre el número de horas de estudio invertidos por los estudiantes fuera de clase, durante un periodo de tres semanas, para un curso de estadística de negocios, junto con las calificaciones que obtuvieron en un examen aplicado al final de ese periodo. . Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la calificación de un estudiante que le dedico 30 horas al estudio de la materia.

Diagrama de Dispersión 100 y = 1.4966x + 40.082 R² = 0.7432

Calificación en el exámen (y)

80 70 60 50

Lineal (X Y)

30 20

10 0

Horas de Estudio (x)

157

EJERCICIO #2. La tabla siguiente da en pulgadas las respectivas alturas “X” e “Y” de una muestra de 12 padres y sus hijos mayores. Determine: a) La grafica de dispersión. b) La ecuación de regresión por mínimos cuadrados. c) Estime la altura de un hijo si el padre mide 75 pulgadas.

Diagrama de dispersión 72

Altura del hijo (y)

y = 0.4764x + 35.825 R² = 0.4937

XY Lineal (X Y)

64 60

66 Altura del padre (x)

158

ACTIVIDAD 3. ECUACIÓN QUE RELACIONE VARIABLES CONOCIDAS CON DESCONOCIDAS.

Instituto Tecnológico Superior de Coatzacoalcos

Febrero/2014 – Junio/2014 Nombre del Alumno

ORTIZ

MEDINA

Apellido Paterno

TANIA GUADALUPE

Apellido Materno

Nombre(s)

Reporte de Investigación ASIGNATURA: ESTADISTICA II

Nombre del Docente

LOPEZ Apellido Paterno

CARRERA:

ING.ADMINISTRACIÓN

No. Control:

12081419

159

Semestre: Fecha de inicio:

DE LOS SANTOS Apellido Materno

4º

FEB/14

EDUARDO Nombre(s)

Grupo: Fecha de término:

“A”

JUN/14

ÍNDICE PRESENTACIÓN ........................................................................................................... 1

ÍNDICE ........................................................................................................................... 2

INTRODUCCIÓN ........................................................................................................... 3

DESARROLLO ............................................................................................................ 4-9

CONCLUSIÓN ............................................................................................................. 10

BIBLIOGRAFIA ............................................................................................................ 11

160

INTRODUCCIÓN

Esta investigación hace referencia al tema del análisis de regresión, correlación lineal y múltiple. Pero se hará un énfasis especial en las variables conocidas y su relación con las variables desconocidas para ver el resultado que se obtenga de estas dos. Como punto primordial sabemos que la regresión y los análisis de correlación nos muestran como determinar tanto la naturaleza como la fuerza de una relación entre dos variables En un análisis de regresión se desarrollan ecuaciones de estimación, esto es, una fórmula matemática que relaciona las variables conocidas con la variable desconocida. Entonces podemos aplicar el análisis de correlación para determinar el grado de en el que están relacionadas las variables. El análisis de correlación, entonces, nos dice qué tan bien están relacionadas las variables. El análisis de correlación, entonces, nos dice que tan bien la ecuación de estimación realmente describe la relación. Los análisis de regresión y correlación mostrarán:  La naturaleza de la relación entre las variables  La fuerza de la relación entre variables Análisis de regresión  Fórmula matemática que relaciona las variables conocidas con la variable desconocida. Esto también nos ayuda a conocer la relación causal entre variables. Variable independiente causa cambios en la variable dependiente Es una manera de expresar dos ingredientes esenciales de una relación estadística: -

Define tendencia de la variable dependiente

Establece la dispersión de las observaciones

161

ECUACIONES QUE RELACIONAN LAS VARIABLES CONOCIDAS CON LA VARIABLE DESCONOCIDA.

El análisis de regresión es una técnica para investigar y modelar la relación entre variables. Aplicaciones de regresión son numerosas y ocurren en casi todos los campos, incluyendo ingeniería, la física, ciencias económicas, ciencias biológicas y de la salud, como también ciencias sociales. Utilidad Utilizados para varios propósitos, incluyendo los siguientes: 1. Descripción de datos Ingenieros y científicos frecuentemente utilizan ecuaciones para resumir un conjunto de datos. El análisis de regresión es útil para describir los datos. 2. Estimación de parámetros. Uno de los casos en los cuales se utiliza el análisis de regresión para estimar parámetros es el siguiente: Suponga que un circuito eléctrico contiene una resistencia conocida de R ohm. Diferentes corrientes pasan a través del circuito y el correspondiente voltaje es medido. El diagrama de dispersión podría indicar que el voltaje y la corriente están relacionados por una línea recta que pasa por el origen con pendiente R (debido a que el voltaje E y la corriente están relacionados por la ley de Ohm E=IR). El análisis de regresión podría ser utilizado para ajustar este modelo a los datos, produciendo un estimado de la resistencia desconocida. 3. Para predicción y estimación. Algunos casos de esta utilidad del análisis de regresión son: a).- La respuesta de un cultivo al variar la cantidad de los fertilizantes; el objetivo puede ser establecer la forma de la relación, o predecir la combinación optima de fertilizantes.

162

b).- La relación entre varias medidas meteorológicas y la producción del cultivo; el más obvio objetivo podría ser tratar de entender los efectos meteorológicos sobre el crecimiento del cultivo. En el análisis de regresión se pueden distinguir dos tipos de variables: variables productoras y variables respuestas. La diferencia entre variable productora y respuesta es no siempre completamente clara y depende algunas veces de nuestros objetivos. Algunos nombres conocidos para las variables predictivas y respuestas son:

¿Cómo se analiza un modelo de regresión? Para analizar un modelo de regresión se pueden establecer básicamente dos pasos. Paso 1. Estimar los parámetros del modelo de regresión. Este proceso es llamado ajuste del modelo a los datos. Paso 2. El siguiente paso de un análisis de regresión es chequear que tan bueno es el modelo ajustado. El resultado de este chequeo puede indicar si el modelo es razonable o si el ajuste original debe ser modificado.

REGRESIÓN Se define como un procedimiento mediante el cual se trata de determinar si existe o no relación de dependencia entre dos o más variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los valores, de una o más variables dependientes.

163

La regresión en forma grafica, trata de lograr que una dispersión de las frecuencias sea ajustada a una línea recta o curva. La regresión puede ser Lineal y Curvilínea o no lineal, ambos tipos de regresión pueden ser a su vez: Esta regresión se utiliza con mayor frecuencia en las ciencias económicas, y sus disciplinas tecnológicas. Cualquier función no lineal, es linealizada para su estudio y efectos prácticos en las ciencias económicas, modelos no lineales y lineales multiecuacionales. Objetivo: Se utiliza la regresión lineal simple para: 1.- Determinar la relación de dependencia que tiene una variable respecto a otra. 2.- Ajustar la distribución de frecuencias de una línea, es decir, determinar la forma de la línea de regresión. 3.- Predecir un dato desconocido de una variable partiendo de los datos conocidos de otra variable. Los problemas verbales de variación directa son problemas donde las cantidades involucradas tienen nombres, sin embargo la forma de resolverlos no es diferente a la forma descrita en la sección anterior. Los pasos para resolverlos son los mismos: Paso 1: Encontrar la fórmula. Paso 2: Identificar variables conocidas y sustituir los valores en la fórmula. Paso 3: Resolver para la variable desconocida Ejemplo 1. El importe del impuesto sobre ventas de un auto nuevo es directamente proporcional al precio de venta del auto, si un auto de $25000 paga $1750 de impuesto sobre ventas. ¿Cuál es el precio de venta de un coche nuevo que tiene un impuesto sobre ventas de $3500?

164

Paso 1: Encontrar la fórmula 1: Traducir el enunciado a una fórmula de variación directa. El importe del impuesto sobre ventas de un auto nuevo es directamente proporcional al precio de venta del auto significa: Impuesto sobre ventas = k· precio de venta 2: Sustituir valores conocidos para encontrar k. 1750 = k 25000 k=175025000=0.07 3: Sustituir k y escribir la fórmula. Impuesto sobre ventas = 0.07· precio de venta Paso 2: Identificar variables conocidas y sustituir los valores en la fórmula. 3500 = 0.07· precio de venta Paso 3: Resolver para la variable desconocida Precio de venta = 50000 Conclusión: Un auto nuevo que paga $3,500 en impuesto sobre ventas tiene un precio de venta de $50,000. Ejemplo 2.- Observamos dos variables en una muestra de países desarrollados (ﬁchero vino.sav): • X: Consumo anual de vino (en litros por habitante) • Y: No de muertes por enfermedad cardiaca, por cada 100.000 hab.

165

¿Qué podemos decir sobre la relación entre las dos variables? ¿Podemos aﬁrmar que a mayor consumo de vino menor número de muertes por enfermedad cardíaca? ¿Podemos predecir aproximadamente el valor de la variable Y si sabemos el valor de X?

166

Pregunta: ¿Implica esta asociación causalidad? Asociación estadística y casualidad La asociación entre una causa (C) y un efecto (E), puede surgir de tres modos distintos.

167

CONCLUSIÓN

Con la regresión lineal simple entendemos por medio de ejemplos cuáles son esas ecuaciones que usan variables tanto conocidas como desconocidas en un solo ejercicio, esto es para comprender mejor el tema de las regresiones, porque al concluir el tema ya debemos sabes diferenciar una variable de otra. Si sabemos que existe una relación

entre una variable

denominada

dependiente y otras

denominadas

independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación de valores de las independientes.

La dependencia a la que hacemos referencia es relacional matemática y no necesariamente de causalidad. Así, para un mismo número de unidades producidas, pueden existir niveles de costo, que varían empresa a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se obtiene una nueva relación pero de un tipo especial denominado función, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en términos generales, una función es un tipo de relación en la cual para cada valor de la variable independiente le corresponde uno y sólo un valor de la variable dependiente. Quedo entendido el tipo de ecuaciones que debemos aplicar para analizar estas variables. Y pues como pudimos observar principalmente se maneja en las ecuaciones de regresión lineal simple.

168

BIBLIOGRAFÍA

 http://webcache.googleusercontent.com/search?q=cache:lrRxX8ms4vkJ:fcq.uac h.mx/index.php/documentos/category/60bioestadistica%3Fdownload%3D386:regrecion-lineal-simple-multiple-ycorrelacion%26start%3D20+&cd=3&hl=es&ct=clnk&gl=mx

 http://html.rincondelvago.com/regresion-lineal-simple.html

 http://quiz.uprm.edu/tutorial_es/direct_var/direct_var_right.xhtml

 http://www.monografias.com/trabajos30/regresion-multiple/regresionmultiple.shtml

 http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un1/cont_01_01.ht ml

169

ACTIVIDAD 4. INVESTIGACIÓN DE TEMAS PENDIENTES DE LA U3. POR EQUIPO

Instituto Tecnológico Superior de Coatzacoalcos Alumnos:     

Bautista Osorio Estefany Díaz Maily Carolina José Alexander Fuentes Morales Ortiz Medina Tania Guadalupe Varo Domínguez Jaricksa

Carrera:  Ingeniería en Administración. Materia:  Estadística II Semestre: 4° Grupo: “A” Docente:  López De Los Santos Eduardo

170

Contenido Contenido……………………………………………………………………………….....2 Introducción. ........................................................................................................ 172 3.1.8 Usos de variables ficticias .......................................................................... 173 Trampa de las variables ficticias. ..................................................................... 174 Formulas .......................................................................................................... 174 EJEMPLO: ....................................................................................................... 176 3.1.9 Residuales y graficas de residuales ........................................................... 178 Figura 9.2. Gráfico matricial .................................. ¡Error! Marcador no definido. Figura 9.3. Gráfico de residuos frente a variable regresora. ............... 180 Figura 9.4. Gráfico de residuos frente a variable regresora . ............... 181 Figura 9.5. Gráfico de residuos frente a variable omitida. ................... 181 Figura 9.6. Necesidad de una variable de clasificación. ...................... 181 Figura 9.7. Residuos frente a variable de clasificación omitida. ........ 181 Tipo 1. .............................................................................................................. 182 Tipo 2. .............................................................................................................. 182 Tipo 3. .............................................................................................................. 183 3.1.10 Interpretación del intervalo de confianza. ................................................. 184 Intervalo de confianza para un promedio: ........................................................ 185 EJEMPLO: ....................................................................................................... 185 EJEMPLO ........................................................................................................ 186 3.1.11 Uso del coeficiente de determinación múltiple. ........................................ 187 UTILIDAD......................................................................................................... 187 OBSERVACIONES .......................................................................................... 188 LA ESTADÍSTICA R2 AJUSTADA ................................................................... 188 EJEMPLO: ....................................................................................................... 189 Conclusiones individuales ................................................................................... 190 Bibliografía: ......................................................................................................... 191

171

INTRODUCCIÓN . El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes. En el análisis de regresión lineal podemos diferenciar entre análisis de regresión lineal simple y análisis de regresión lineal múltiple. Al trabajar con dos variables cuantitativas podemos estudiar la relación que existe entre ellas mediante la correlación y la regresión. Aunque los cálculos de ambas técnicas pueden ser similares en algunos aspectos e incluso dar resultados parecidos, no deben confundirse. En la correlación tan solo medimos la dirección y la fuerza de la asociación de una variable frente a la otra, pero nunca una relación de causalidad. Solo cuando tenemos una variable que es causa o depende de otra, podremos realizar entonces una regresión. En este capítulo estudiaremos los usos que se les dan a las variables ficticias con ejemplos y veremos la interpretación de gráfico residual en histogramas.

172

3.1.8 Usos de variables ficticias

Las variables ficticias recogen los efectos diferenciales que se producen en el comportamiento de los agentes económicos debido a diferentes causas como las siguientes: De tipo temporal: Para recoger efectos diferentes en función del tiempo en que se producen las observaciones de las variables (por ejemplo, consumo en periodos de guerra o paz). De carácter espacial: Para tener en cuenta la pertenencia o no de la observación a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas). De tipo cualitativo: Para recoger los efectos de variables cualitativas como el género, el estado civil, tener o no cargas familiares, nivel de educación, etc. Sobre el comportamiento de los agentes económicos en decisiones de consumo, de oferta de trabajo, etc. Otras causas: Para conocer los efectos que las variables cuantitativas tienen sobre la variable endógena, distinguiendo por submuestras (por ejemplo, la propensión marginal al consumo de individuos de rentas altas o bajas). Permiten tratar información cualitativa

Sexo en la determinación de salarios Estación del año en el consumo de helados Pertenecer a la UE en la determinación del crecimiento económico Entrar en bancarrota en la predicción de beneficios -uno

La utilización de variables ficticias (variables dicotómicas o variables dummy) en un modelo econométrico permite la inclusión de aspectos cualitativos en el modelo. En este caso, vamos a dividir las familias de la muestra en tres grupos, de acuerdo con su tamaño familiar:

173

Grupo 1: familias de tamaño pequeño (de 1 a 3 componentes). Grupo 2: familias de tamaño medio (de 4 a 6 componentes). Grupo3: familias de tamaño grande (a partir de 7 componentes). Trampa de las variables ficticias. Formulas A la hora de incluir variables ficticias en el modelo debemos ser cautelosos puesto que podemos provocar un problema de multicolinealidad perfecta, es decir, podemos caer en la denominada “trampa de las variables ficticias”. Modelos con un único factor cualitativo: Vamos a considerar, por ejemplo, las variables ﬁcticias o variables dummy de sexo:

y consideremos el modelo para el salario por hora en función de la experiencia laboral que vimos en el Tema 1, en el que ahora incorporamos la dummy de ser hombre.

Si calculamos en este modelo la media del salario para hombres y mujeres que tengan los mismos años de experiencia laboral tenemos

Al incorporar la variable ﬁcticia Hombre t lo que estamos haciendo es permitir que el término independiente del modelo pueda ser distinto para hombres y mujeres, ya que para hombres el término constante es β1 + β2 mientras que para las mujeres es β1, y por tanto β2 reﬂeja las posibles diferencias en el término constante entre hombres y mujeres. Además,

174

Y por tanto β2 mide la diferencia en el salario medio entre hombres y mujeres con la misma experiencia laboral. La hipótesis de ausencia de diferencias entre hombres y mujeres sería β2 = 0 Alternativamente podríamos haber incorporado en el modelo la dummy de ser mujer:

Si calculamos ahora la media del salario para hombres y mujeres que tienen los mismos años de experiencia laboral tenemos

Y por tanto

es decir α2 mide la diferencia en el salario medio entre mujeres y hombres con la misma experiencia laboral. Los modelos:

Por lo tanto, obviamente α2=β2. Esta relacion entre los parametros de modelos (1) y (2) tambien se verifica para los estimadores MCO de los dos modelos como ilustra el siguiente ejemplo:

175

EJEMPLO:

176

177

3.1.9 Residuales y graficas de residuales

Como se ha indicado anteriormente, el análisis de los residuos es básico para chequear si se verifican las hipótesis del modelo de regresión. Por ello, a continuación se exponen las propiedades matemáticas de los mismos. Considérese el modelo de regresión lineal múltiple Los residuos mínimo-cuadráticos vienen dados por o en forma matricial -1 t Como = H , siendo H = X X la matriz de proyección ortogonal. Es fácil probar que la matriz H es idempotente y simétrica . En base a esto = - = -H = = = X + -HX -H = , Donde se utilizó que HX = X. Se calcula la matriz de varianzas de los residuos,

Por tanto, ei es una variable aleatoria con distribución

Donde hii es el valor de influencia de i. que mide la “distancia estadística” de i. a . Un residuo “grande” indica que la observación está lejos del modelo estimado y, por tanto, la predicción de esta observación es mala. Las observaciones con residuos grandes se denominan observaciones atípicas o heterogéneas (outliers). Como los residuos tienen varianza variable y son dimensionados (tienen las unidades de la variable Y ), normalmente se tipifican

Los residuos tipificados siguen una distribución normal estándar, pero como 2 es desconocido, se sustituye por su estimador, la varianza residual R2 y se obtienen los residuos estandarizados, definidos como

178

Por la hipótesis de normalidad los residuos estandarizados siguen una distribución t con ngrados de libertad. Como ya se indicó en el estudio del modelo de regresión lineal simple, en el cálculo de ri existe el problema de que hay una relación de dependencia entre el numerador y el denominador de ri. Para evitar esto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador R, , la varianza residual del modelo de regresión obtenido a partir de la muestra en la que se ha eliminado la observación . Ahora se definen los residuos estudentizados como

Los residuos estudentizados siguen una distribución t con grados de libertad. Si el tamaño muestral es grande, los residuos estandarizados y los estudentizados son casi iguales y muy informativos, pudiéndose considerar grandes los residuos estandarizados tales que > 2. Con los residuos estandarizados o estudentizados se pueden construir los siguientes gráficos de interés: El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer gráfico que se debe observar. Proporciona una primera idea de la existencia de relación lineal o de otro tipo entre la respuesta y las regresoras y también da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad. Figura 9.2.

Figura 9.2. Gráfico matricia

179

El histograma de los residuos, que sirve para observar la existencia de normalidad, simetría y detectar observaciones atípicas. El gráfico probabilístico de normalidad (p-p y q -q) y el gráfico de simetría, que permite contrastar la normalidad (simetría) de la distribución de los residuos. El gráfico de residuos diferentes problemas:

frente a las predicciones

, que permite detectar

Heterocedasticidad, la varianza no es constante y se deben de transformar los datos (la variable Y) o aplicar mínimos cuadrados ponderados. Error en el análisis, se ha realizado mal el ajuste y se verifica que los residuos negativos se corresponden con los valores pequeños i y los errores positivos se corresponden con los valores grandes de i, o al revés. El modelo es inadecuado por falta de linealidad y se deben de transformar los datos o introducir nuevas variables que pueden ser cuadrados de las existentes o productos de las mismas. O bien se deben introducir nuevas variables explicativas. Existencia de observaciones atípicas o puntos extremos. Tener en cuenta que se debe utilizar el gráfico de residuos frente a las predicciones en lugar del gráfico de residuos frente a las observaciones porque las variables e están corraladas, mientras que las variables e no lo están. El gráfico de residuos frente a una variable explicativa , permite deducir si la existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas a la variable explicativa representada. Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera de ellas se observa que la relación con la variable xj no es lineal y, probablemente, un ajuste cuadrático sea adecuado, también se tendrían dudas acerca de la homocedasticidad del modelo.

Figura9.3. Gráfico de residuos frente a variable regresora .

180

En la Figura 9.3 se observa que el modelo es heterocedástico y la causa de este problema puede ser la variable explicativa xj. Por ello, la solución se basa en transformar el modelo teniendo en cuenta este hecho.

Figura 9.4. Gráfico de residuos frente a variable regresora . Heterocedasticidad. El gráfico de residuos frente a una variable omitida, permite valorar si esta variable influye en el modelo y por lo tanto se debe incluir como una nueva variable regresora. En la Figura 9.5 de residuos frente a una variable omitida se observa que existe una relación lineal con esta variable y por tanto se mejora el ajuste si se incluye la variable xomit. Figura 9.5. Gráfico de residuos frente a variable omitida. 1.

Una situación frecuente se produce cuando se tienen observaciones de diferentes poblaciones y se debe de incluir una variable de clasificación en el modelo de regresión. Esto se puede observar en el gráfico de residuos frente a predicciones como se puede ver en la Figura 9.6. Figura 9.6. Necesidad de una variable de clasificación. El gráfico de los residuos frente a la variable de clasificación omitida se presenta en la Figura 9.7.

181

Figura 9.7. Residuos frente a variable de clasificación omitida. El 2. gráfico parcial de residuos, es útil para valorar la influencia real de una variable regresora, esto es, conocer la información nueva que aporta la variable regresora en estudio y que no aportan las otras variables regresoras. Según el paquete estadístico que se utilice los gráficos parciales de residuos se pueden construir de diferentes formas. 3.

Tipo 1.

Si se tienen k variables regresoras y se desea obtener el gráfico parcial de residuos respecto a la variable xk, se procede de la siguiente forma: se calcula el modelo de regresión respecto a las restantes variables regresoras,

5. 6.

Se calculan los residuos

7. 8.

Que representan la parte de Y no explicada por las variables x1,x2,...,xk-1.

Por tanto, la gráfica de los residuos “parciales” ek* frente a la variable xk permite valorar la importancia real de esta variable.

10. Tipo 2. Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma. Calcular * = + k k= + k k k = Se obtiene un nuevo gráfico parcial representando los residuos “parciales” k* frente a la variable xk. Si la variable xk es ortogonal a las restantes variables explicativas los estimadores i* y i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek* y k * . Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este caso. Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se observa que existe una relación lineal entre las variables regresoras y la variable de interés. Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma. Calcular * = + k k= + k k k = Se obtiene un nuevo gráfico parcial representando los residuos “parciales”

182

frente a

la variable xk. Si la variable xk es ortogonal a las restantes variables explicativas los estimadores i* y * * i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek y k . Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este caso. Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se observa que existe una relación lineal entre las variables regresoras y la variable de interés.

Tipo 3. Otro gráfico parcial de interés que proporcionan algunos paquetes estadísticos es el siguiente (se quiere calcular el gráfico parcial respecto a xk): Se calculan los modelos de regresión de las variables Y y xk respecto a las restantes variables regresoras. Ahora se representa el gráfico de residuos de ek* frente a los residuos e ,k. Esto es, el gráfico de los pares. Este gráfico da una idea de la relación entre la variable Y y la variable xk una vez que se ha eliminado la influencia de las otras

183

variables regresoras.

3.1.10 Interpretación del intervalo de confianza. En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1- . La probabilidad de equivocarnos se llama nivel de significancia y se simboliza . Generalmente se construyen intervalos con confianza 1- =95% (o significancia =5%). Menos frecuentes son los intervalos con =10% o =1%. Para construir un intervalo de confianza, se puede comprobar que la distribución Normal Estándar cumple 1: P (-1.96 < z < 1.96) = 0.95

184

(Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales). Luego, si una variable X tiene distribución N ( , cumple:

Despejando

), entonces el 95% de las veces se

en la ecuación se tiene:

El resultado es un intervalo que incluye al el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media cuando la variable X es normal y es conocido. Intervalo de confianza para un promedio: Generalmente, cuando se quiere construir un intervalo de confianza para la media poblacional , la varianza poblacional es desconocida, por lo que el intervalo para construido al final de II es muy poco práctico. Si en el intervalo se reemplaza la desviación estándar poblacional por la desviación estándar muestral s, el intervalo de confianza toma la forma:

La cual es una buena aproximación para el intervalo de confianza de 95% para con desconocido. Esta aproximación es mejor en la medida que el tamaño muestral sea grande. Cuando el tamaño muestral es pequeño, el intervalo de confianza requiere utilizar la distribución t de Student (con n-1 grados de libertad, siendo n el tamaño de la muestra), en vez de la distribución normal (por ejemplo, para un intervalo de 95% de confianza, los límites del intervalo ya no serán construidos usando el valor 1,96).

EJEMPLO: Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresión (mayor puntaje significa mayor depresión).

185

2 11 14 16 19

5 11 15 16 19

6 13 15 17 19

8 13 16 17 19

8 14 16 17 19

9 14 16 18 19

10 14 16 18 20

11 14 16 19 20

Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos que los datos tienen distribución normal, con varianza poblacional desconocida. Como es desconocido, lo estimamos por s =18,7. Luego, un intervalo de confianza aproximado es:

Luego, el intervalo de confianza para es (13,2, 15,8). Es decir, el puntaje promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%.

EJEMPLO 1. Se quiere obtener un intervalo de confianza para el valor de las ventas medias por hora que se producen en un kiosco. Para ello realizamos una muestra consistente en elegir al azar las ventas que se realizaron durante 1000 horas distintas; muestra cuyos resultados fueron: ventas medias por hora 4000 pts, y varianza de dicha muestra 4000 pts al cuadrado. Obtener dicho intervalo con un nivel de confianza del 95.5 %. Queremos construir un intervalo para la media con las siguientes características: Tamaño muestral = n =1000, muestreo aleatorio simple la población no es normal ni conocemos su varianza, el resultado de la muestra es : si bien se trata de un intervalo para la media con varianza desconocida y población no normal , dado que el tamaño muestral es grande podemos suponer normalidad y tomar como varianza poblacional a la muestral así :

Dado que para nivel de confianza del 95,5% las valores de tendremos el intervalo:

186

son según tablas 2,-2

Luego el intervalo será

3.1.11 Uso del coeficiente de determinación múltiple. El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

Algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostración de .ostración de formula El coeficiente de determinación múltiple, es una generalización del valor de en la lección de Rcuadrado definida para una línea recta.

definida

UTILIDAD Se utiliza para medir la reducción en la variabilidad total de

187

debido a la inclusión de

las variables regresoras . Un valor grande de no necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de

, ya sea que las variables contribuyan o no al modelo. Es posible que

modelos con valor de

grande sean malos en la predicción o estimación.

OBSERVACIONES 1.

mide la correlación entre

2. Si existe error puro, es imposible que manera en que podría dar datos en el cual 3. Si

alcance el valor de

. La única

, sería que se tuviera un perfecto ajuste de los

, lo cual es un improbable evento en la práctica,

esto

modelo

(suponiendo

ha sido ajustado), entonces

que

una medida de la utilidad de los términos en el modelo diferentes de LA ESTADÍSTICA R2 AJUSTADA Como alternativa al uso de

como medida de la idoneidad de un modelo, es común

que se informe el coeficiente de determinación múltiple ajustado, denotado por dado por

Se observa que

esta

toma en cuenta ("ajusta por") tanto el tamaño de la muestra

como el número de parámetros del modelo.

Siempre es menor que

y lo que es

más importante, no puede "forzarse" hacia con sólo agregar más y más variables independientes al modelo. Por ello, algunos analistas prefieren el valor más conservador de

cuando deben elegir una medida de la idoneidad de un modelo.

Tenga en cuenta que: La estadística y son medidas descriptivas, y no debemos depender únicamente de sus valores para decidir si un modelo es útil o no para predir la variable respuesta

188

EJEMPLO: Para los datos del ejemplo se tiene que

Lo cual significa que el Ahora el valor de

189

de la variabilidad total es explicada por el modelo.

Conclusiones individuales

Es este tema podemos ver para que nos sirve el uso del coeficiente de determinación múltiple que es una medida descriptiva que nos sirve para saber la bondad de ajustes de los datos y mide la capacidad predictiva del modelo ajustado. El coeficiente de determinación múltiple, es una generalización del valor de en la lección de R cuadrado definida para una línea recta. -

definida

Bautista Osorio Estefany.

Estos temas que se desarrollaron son derivados del análisis de regresión y correlación lineal y múltiple, los cuales nos ayudan a conocer la relación que existen entre dos o más variables, ósea si una de ellas es determinada de la otra, también nos ayuda a que revisemos bien cada planteamiento que se nos hace ya que vemos el tema de variables ficticias ósea falsas y si en realidad los datos nos ayudaran a obtener el resultado que deseamos obtener, con los residuales pues vemos como lo obtenemos y como se gráfica, en el intervalo de confianza pues se ve cómo interpretarlo ya que ya se había visto pero nos da una manera más amplia de aplicación y mejor comprensión y con el uso del coeficiente de determinación múltiple pudimos observar que hay que poner especial énfasis en cada dato proporcionado porque serán varias determinantes que debemos obtener. -

Diaz Maily Carolina.

El análisis de correlación produce un número que resume el grado de la correlación entre dos variables, y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación. El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. Tales estimaciones le permiten entender mejor el efecto que probablemente tendrán en el mercado las decisiones referentes el precio y promoción. -

Fuentes Morales José Alexander.

Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos o más variables. La regresión lineal simple expresa la relación entre una variable dependiente “Y” y una variable independiente “X”, en términos de la pendiente y la intersección de la línea que mejor se ajuste a las variables. La correlación simple expresa el grado o la cercanía de la relación entre las dos variables en términos de un coeficiente de correlación que proporciona una medida

190

indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste- Ni la regresión ni la correlación dan pruebas de relaciones causa – efecto. -

Ortiz Medina Tania Guadalupe

Como conclusión se pudo llegar comprender que la regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación. En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muéstrales para saber qué es y cómo se relacionan entre sí dos o más variables en una población. -

Varo Domínguez Jaricksa.

Bibliografía:

http://rua.ua.es/dspace/bitstream/10045/19712/1/tema4.pdf http://ciberconta.unizar.es/leccion/ficticia/variables%20ficiticas.PDF http://webs.uvigo.es/cjardon/Practicas/practicaII-2.pdf http://www.virtual.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_02_63.html http://www.monografias.com/trabajos82/regresion-y-correlacion-lineal/regresion-ycorrelacion-lineal2.shtml

191

 EXPOSICIÓN EN EQUIPO

192

193

194

195

196

SERIES DE TIEMPO

197

198

UNIDAD 4. SERIES DE TIEMPO. 4.1 MODELO CLÁSICO SERIES DE TIEMPO. 4.2 ANÁLISIS DE TENDENCIA. 4.3 ANÁLISIS DE VARIACIONES CÍCLICAS. 4.4 MEDICIÓN DE VARIACIONES ESTACIONALES. 4.5 APLICACIÓN DE AJUSTES ESTACIONALES. 4.6 PRONÓSTICOS BASADOS EN FACTORES DE ESTACIONALES. 4.7 PRONÓSTICOS, CICLOS E INDICADORES ECONÓMICOS. 4.8 PROMEDIOS MÓVILES. 4.9 SUAVIZACIÓN EXPONENCIAL COMO PRONOSTICO. 4.10 APLICACIONES DEL PAQUETE COMPUTACIONAL

199

TENDENCIA

UNIDAD 4. SERIES DE TIEMPO. La planeación a futuro es un aspecto esencial en la administración de cualquier empresa, ya que su éxito, a la larga, se relaciona mucho con lo bien que la administración puede anticipar el futuro y desarrollar las estrategias adecuadas. El buen juicio, la intuición y la percepción del estado de la economía pueden dar a un administrador una idea tosca o sensación de lo que probablemente ocurrirá en el futuro. Sin embargo, es difícil convertir esa sensación en números que se puedan usar, como el número de ventas en el próximo trimestre, o el costo de las materias primas en el año venidero. El objetivo de esta unidad es explicar algunos métodos de pronósticos. Los métodos de pronósticos se clasifican en cuantitativos y cualitativos. Los métodos cuantitativos se usan cuando: 1. Se dispone de información histórica anterior acerca de la variable que se pronostica. 2. La información se puede cuantificar 3. Un supuesto razonable es que el patrón del pasado continuará en el futuro. En tales casos es factible la elaboración de un pronóstico, ya sea con un método de serie de tiempo o con un método casual. El análisis de serie de tiempo es un método cuantitativo que utilizamos para determinar patrones en los datos recolectados a través del tiempo. El análisis de series de tiempo se utiliza para determinar patrones de cambio en la información estadística en intervalos regulares, proyectamos estos patrones para obtener una estimación para el futuro. En consecuencia, el análisis de series de tiempo nos ayuda a manejar la incertidumbre asociada con los acontecimientos futuros.

4.1 MODELO CLÁSICO SERIES DE TIEMPO. Una serie de tiempo es un conjunto de valores observados, tales como los datos de producción o de ventas, en períodos ordenados de manera secuencial. Ejemplos de este tipo son las ventas de un determinado producto en una serie de meses y el número de trabajadores empleados en una industria determinada en una serie de años. Una serie de tiempo se representa gráficamente mediante una gráfica de línea, con los períodos de tiempo representados en el eje horizontal y los valores de la serie de tiempo representado en el eje vertical. Por ejemplo. La figura siguiente es una gráfica de línea que ilustra las ventas anuales en dólares de una empresa de software gráfico (ficticia) formada en el 2000. Como se puede observar…… anuales, seguido por dos años de declinación en las ventas que

200

culminaron en la sima de 2008, que entonces fue seguida por niveles crecientes de ventas durante los últimos años de los valores reportados en la serie de tiempo. Ventas Time Series Plot of Ventas 1.8 (millones de 1.6 dólares) 1.4 2000 0.2 1.2 2001 0.4 1.0 2002 0.5 0.8 2003 1 0.6 2004 1.1 0.4 2005 1.5 0.2 2006 1.4 0.0 2000 2001 2002 2003 2004 2005 2006 2007 2008 2007 1.2 Year 2008 1.7 El análisis de series de tiempo es el procedimiento mediante el cual se identifican y separan factores relacionados con el tiempo que influyen en los valores que se observan en una serie de tiempo. Una vez identificado se pueden usar como ayuda en la interpretación de los valores históricos de las series de tiempo y para predecir valores futuros de las series de tiempo. El método clásico en el análisis de series de tiempo distingue cuatro influencias de este tipo o componentes: 1) Tendencia secular (T). El valor de la variable tiende a aumentar o disminuir en un período muy largo. Ventas

Año

2) Fluctuaciones cíclicas (C). Son movimientos recurrentes hacia arriba y hacia abajo en relación con la tendencia que tienen una duración de varios años.

201

3) Variaciones estacionales (S). Este tipo de variación implica patrones de cambio en el lapso de un año que tienden a repetirse anualmente, es decir, son movimientos hacia arriba y hacia abajo en relación con la tendencia que ocurren durante un año y que tienen recurrencia anual. Por lo común estas variaciones se detectan en datos mensuales o trimestrales.

4) Variaciones irregulares (I). Son variaciones erráticas respecto de la tendencia que no se pueden atribuir a las influencias cíclicas o estacionales, es decir, en muchas situaciones, el valor de una variable puede ser completamente impredecible cambiando de manera aleatoria. Las variaciones irregulares describen esos movimientos.

El modelo que subyace al análisis clásico de series de tiempo está basado en la suposición de que para cualquier periodo que se tome de la serie de tiempo, el valor de la variable está determinado por los cuatro componentes antes descritos, y que además estos componentes tienen una relación multiplicativa. Así, si Y representa el valor observado en la serie de tiempo. Y = T x C x S x I

202

El modelo representado por la formula anterior se usa como base para separar las influencias de los diferentes componentes que afectan a los valores de la serie de tiempo.

4.2 ANÁLISIS DE TENDENCIA. El análisis de tendencia investiga la dirección del movimiento en la serie de tiempo, generalmente este análisis se realiza con datos anuales. Se deben usar datos de 15 o 20 años, por lo menos, de modo que los movimientos cíclicos de varios años de duración no se consideren como indicativos de la tendencia general de los valores de la serie de tiempo. El método de mínimos cuadrados es el que se usa con mayor frecuencia para determinar el componente de tendencia en una serie de tiempo, determinando la ecuación de la recta de tendencia de mejor ajuste. Desde el punto de vista estadístico, una recta de tendencia no es una recta de regresión, ya que la variable dependiente “Y” no es una variable aleatoria, sino una serie de valores históricos. Además para cualquier periodo dado sólo puede haber un valor histórico (no una distribución de valores), y los valores correspondientes a los períodos adjuntos es probable que sean dependientes y no independientes. De cualquier manera, el método de los mínimos cuadrados es una base adecuada para determinar el componente de tendencia de una serie de tiempo. Si el incremento o decremento a largo plazo parecen seguir una tendencia lineal, la ecuación para los valores de la recta de tendencia, es: ̂ Donde

̂ = valor estimado de la variable dependiente X= variable independiente (tiempo en el análisis de tendencia) b0= ordenada Y (el valor de Y cuando X=0) b1= pendiente de la recta de tendencia.

Pendiente de la recta de regresión de mejor ajuste: Ordenada Y de la recta de regresión de mejor ajuste:

̅̅

∑ ∑

Donde Y= valores de la variable dependiente X= valores de la variable independiente ̅ = media de los valores de la variable dependiente ̅ = media de los valores de la variable independiente n= número de datos en la serie de tiempo En el caso de una tendencia no lineal, un tipo de curva de tendencia que suele resultar útil es la curva de tendencia exponencial. Una curva de tendencia exponencial típica es la que refleja una tasa de crecimiento constante durante un período de años, como pueden ser las ventas de las computadoras personales durante la década de los ochenta.

203

Una curva exponencial se llama así porque la variable independiente “X” es el exponente de b1 en la ecuación general. ̂ Donde b0= valor de ̂ en el año 0 b1= tasa de crecimiento Tomando logaritmos en ambos miembros de la ecuación se obtiene una ecuación lineal de tendencia logarítmica: log ̂ = log b0 + X log b1 La ventaja de la transformación a logaritmos es que la ecuación lineal para el análisis de tendencia puede aplicarse a los logaritmos de los valores cuando la serie de tiempo sigue una curva exponencial. Los valores logarítmicos pronosticados para ̂ Se pueden reconvertir después a las unidades originales de medición sacando el antilogaritmo de los valores. La curva Gompertz en forma de “S” una ecuación que se usa para ajustar esta curva de tendencia es: ̂ = b0 + b1(b2)X Los valores de b0, b1 y b2 se determinan sacando primero logaritmo a ambos miembros de la ecuación, como sigue: log ̂ = log b0 + (log b1)(b2)X Por último se calculan los valores que conforman la curva de tendencia sacando el antilogaritmo de los valores que se obtienen con la formula anterior. Ejemplo. Considere la siguiente serie de tiempo: X 1 2 3 4 5 Y 6 11 9 14 15 Con base en ella determine: a) La grafica de serie de tiempo. b) Una ecuación del componente de tendencia lineal para la serie de tiempo. c) ¿Cuál es el pronóstico para x= 6? Solución: a) Time Series Plot of y 15.0

12.5

10.0

7.5

5.0 1

204

3 Index

̅ ̅

X 1 2 3 4 5 X=15

∑

Y 6 11 9 14 15 Y=55

XY 6 22 27 56 75 XY=186

X2 1 4 9 16 25 X2=55

∑

̅̅

∑

( )( )( ( )(

(

) )

)( )

̂ ̂

(

)( )

Ejercicio. Los datos de inscripciones, en miles, en una universidad estatal durante los últimos 6 años son los siguientes: Año 1 2 3 4 5 6 Inscripción 20.5 20.2 19.5 19 19.1 18.8 Deduzca una ecuación del componente de tendencia lineal en esta serie de tiempo. Haga comentario acerca de lo que sucede con la inscripción en esta institución. Solución: X Y XY 1 20.5 20.5 2 20.2 40.4 3 19.5 58.5 4 19 76 5 19.1 95.5 6 18.8 112.8 X=21 Y=117.1 XY=403.7 ̅

∑

̅̅

∑

205

( )( ( )(

)(

) )

X2 1 4 9 16 25 36 X2=91

(

)(

)

̂ Que la inscripción decrece aproximadamente 350 alumnos por año.

4.3 ANÁLISIS DE VARIACIONES CÍCLICAS. La variación cíclica es la componente de una serie de tiempo que tiende a oscilar arriba y debajo de la línea de tendencia secular en períodos mayores que un año. El procedimiento utilizado para identificar la variación cíclica es el método de residuos. Métodos de residuos. Cuando observamos una serie de tiempo consiste en datos anuales, sólo se toman en cuenta las componentes de tendencia secular, cíclica e irregular. (Esto es así porque la variación estacional pasa por un ciclo completo y regular cada año y no afecta más un año que otro). Si utilizamos una serie de tiempo compuesta por datos anuales, podemos encontrar la fracción de la tendencia dividiendo el valor real (Y) entre el valor de la tendencia correspondiente ( ̂ ) para cada valor de la serie de tiempo. Luego se multiplica el resultado de este cálculo por 100. Esto da la medida de la variación cíclica como un porcentaje de tendencia. ̂ Donde: Y= valor real de la serie de tiempo ̂ = valor de tendencia estimado a partir del mismo punto de la serie de tiempo. Ejemplo. Considere la siguiente serie de tiempo: X 1 2 3 4 5 Y 6 11 9 14 15 Con base en ella determine: a) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. b) Construya un diagrama de ciclos con los datos Solución: a)

206

X (Año)

Y (real)

Y (Esperado)

1 2 3 4

6 11 9 14

6.8 8.9 11 13.1

(Ciclo relativo) 88.23 123.59 81.81 106.87

15.2

98.68



Y  b  b X  4.7  2.1X Y  4.7  2.1X  4.7  2.1(1)  6.8 0



Y  4.7  2.1X  4.7  2.1(2)  8.9 Y  4.7  2.1X  4.7  2.1(3)  11 Y  4.7  2.1X  4.7  2.1(4)  13.1 Y  4.7  2.1X  4.7  2.1(5)  15.2 



Time Series Plot of Ciclico relativo

Ciclico relativo

120

110

100

80 1

3 Index

Ejercicios. 1. Los datos de inscripciones, en miles, en una universidad estatal durante los últimos 6 años son los siguientes: Año 1 2 3 4 5 6 Inscripción 20.5 20.2 19.5 19 19.1 18.8 Con base en ella determine: a) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla. b) Construya un diagrama de ciclos con los datos

207

Solución:

X (Años)

Y (real)

Y (Esperado)

1 2 3 4 5 6

20.5 20.2 19.5 19 19.1 18.8

20.391 20.041 19.691 19.341 18.991 18.641

(Ciclo relativo) 100.534 100.793 99.030 98.236 100.573 100.852



Y  b  b X  20.741  0.350 X Y  20.741  0.350 X  20.741  0.350(1)  20.391 0



Y  20.741  0.350 X  20.741  0.350(2)  20.041 Y  20.741  0.350 X  20.741  0.350(3)  19.691 Y  20.741  0.350 X  20.741  0.350(4)  19.341 Y  20.741  0.350 X  20.741  0.350(5)  18.991 Y  20.741  0.350 X  20.741  0.350(6)  18.641 



Time Series Plot of Ciclo relativo 101.0

Ciclo relativo

100.5 100.0 99.5 99.0 98.5 98.0 1

Index

2. La tabla siguiente presenta los datos correspondientes a un período de 11 años de una empresa de software gráfico formada en 1998. a) Realice la gráfica de tendencia para los datos. b) Determine la ecuación de la línea de tendencia para estos datos empleando el método de mínimos cuadrados, codifique 1998 como cero y aproxime todos los valores a dos cifras decimales. c) El componente cíclico de cada uno de los valores de la serie de tiempo que se reportan en la tabla.

208

d) Construya un diagrama de ciclos con los datos. Solución: X

Y esperado

0 1 2 3 4 5 6 7 8 9 10 X=55

0.20 0.40 0.50 0.90 1.10 1.50 1.30 1.10 1.70 1.90 2.30 Y=12.9

0 0.4 1 2.7 4.4 7.5 7.8 7.7 13.6 17.1 23 XY=85.2

0 1 4 9 16 25 36 49 64 81 100 X2=385

0.22 0.41 0.6 0.79 0.98 1.17 1.36 1.55 1.74 1.93 2.12

Ciclo relativo 90.90 97.56 83.33 113.92 112.24 128.20 95.58 70.96 97.70 98.44 108.49

Time Series Plot of y 2.5

2.0

1.5

1.0

0.5 1

6 Index

a)  X 55 X  5 n 11  Y 12.9 Y   1.17 n 11  XY  n X Y 85.2  (11)(5)(1.17) 20.85    0.19 b1  2 385  (11)(52) 110  x2  n X

209

b  Y  b X  1.17  0.19(5)  0.22 Y  b  b X  0.22  0.19 X Y  0.22  0.19 X  0.22  0.19(0)  0.22 Y  0.22  0.19 X  0.22  0.19(1)  0.41 Y  0.22  0.19 X  0.22  0.19(2)  0.6 Y  0.22  0.19 X  0.22  0.19(3)  0.79 Y  0.22  0.19 X  0.22  0.19(4)  0.98 Y  0.22  0.19 X  0.22  0.19(5)  1.17 Y  0.22  0.19 X  0.22  0.19(6)  1.36 Y  0.22  0.19 X  0.22  0.19(7)  1.55 Y  0.22  0.19 X  0.22  0.19(8)  1.74 Y  0.22  0.19 X  0.22  0.19(9)  1.93 Y  0.22  0.19 X  0.22  0.19(10)  2.12 0



  



Time Series Plot of y 130 120

110 100 90

80 70 1

6 Index

210

4.4 MEDICIÓN DE VARIACIONES ESTACIONALES. Además de la tendencia secular y de la variación cíclica, una serie de tiempo incluye la variación estacional. Este tipo de variación se define como un movimiento repetitivo y predecible alrededor de la línea de tendencia en un año o menos. Con el fin de detectar la variación estacional, los intervalos de tiempo necesitan medirse en unidades pequeñas, como días, semanas, meses o trimestres. Ejemplo. El hotel de veraneo desea establecer el patrón estacional de demanda de cuartos por parte de sus clientes. La administración desea mejorar el servicio al cliente y está considerando varios planes de contratación de personal durante los períodos picos. La tabla siguiente presenta la ocupación por trimestre, es decir, el promedio de huéspedes durante cada trimestre de los últimos cinco años. Año Número de huéspedes por trimestres I II III IV 2005 1861 2203 2415 1908 2006 1921 2343 2514 1986 2007 1834 2154 2098 1799 2008 1837 2025 2304 1965 2009 2073 2414 2399 1967 Solución: Año Trimestre Ocupación Total Promedio móvil de 4 móvil de trimestres los 4 trimestres

2005

2006

2007

2008

2009

211

I II III IV I II III IV I II III IV I II III IV I II

1861 2203 2415 1908 1921 2343 2514 1986 1834 2154 2098 1799 1837 2025 2304 1965 2073 2414

8387 8447 8587 8686 8764 8677 8488 8072 7885 7888 7759 7965 8131 8367 8756

2096.75 2111.75 2146.75 2171.5 2191 2169.25 2122 2018 1971.25 1972 1939.75 1991.25 2032.75 2091.75 2189

Promedio móvil centrado de 4 trimestres

Porcentaje del valor real respecto al promedio móvil

2104.25 2129.25 2159.125 2181.25 2180.125 2145.625 2070 1994.625 1971.625 1955.875 1965.5 2012 2062.25 2140.375 2193.375 2198

114.8 89.6 89 107.4 115.3 92.6 88.6 108 106.4 92 93.5 100.6 111.7 91.8 94.5 109.8

III IV

2339 1967

8791 8793

2197.75 2198.25

Columna 4: Total móvil de 4 trimestres 1861 + 2203 + 2415 + 1908 = 8387 2203 + 2415 + 1908 + 1921 = 8447 2415 + 1908 + 1921 + 2343 = 8587 1908 + 1921 + 2343 + 2514 = 8686 1921 + 2343 + 2514 + 1986 = 8764 Etc. Se usa el término móvil porque cada vez se dispone de una nueva observación para la serie de tiempo, se reemplaza la observación más antigua en la ecuación y se calcula un nuevo promedio. En consecuencia, el promedio cambia o se mueve a medida que se dispone de nuevas observaciones. Columna 5: Promedio móvil de los 4 trimestres 8387  4 = 2096.75 8447  4 = 2111.75 8587  4 = 2146.75 8686  4 = 2171.5 8764  4 = 2191 Etc. Con este cálculo se determina la ocupación trimestral promedio para cada año. El valor de 2096.75 corresponde a la segunda mitad del segundo trimestre y a la primera mitad del tercero. De la misma manera, si avanzamos al siguiente valor de promedio móvil de 2111.75 el medio corresponde a la última mitad del tercer trimestre y a la primera del cuarto. Columna 6: Promedio móvil centrado de 4 trimestres (2096.75 + 2111.75)  2 = 2104.25 (2111.75 + 2146.75)  2 = 2129.25 (2146.75 + 2171.5)  2 = 2159.125 (2171.5 + 2191)  2 = 2181.25 (2191 + 2169.25)  2 = 2180.125 Etc. Cada punto en un promedio móvil centrado representa el valor de la serie de tiempo como si no hubiera influencias estacionales e irregulares. Tienden a suavizar las fluctuaciones estacionales e irregulares de la serie de tiempo. Columna 7: Porcentaje del valor real respecto al promedio móvil (2415  2104.25) x 100 = 114.8 (1908  2129.25) x 100 = 89.6 (1921  2159.125) x 100 = 89

212

(2343  2181.25) x 100 = 107.4 (2514  2180.125) x 100 = 115.3 Año

Trimestre I

2005 2006 2007 2008 2009

89 88.6 93.5 94.5 182.5

Trimestre II 107.4 108 100.6 109.8 215.4

Trimestre III 114.8 115.3 106.4 111.7 226.5

Trimestre IV 89.6 92.6 92 91.8 183.8

Media modificada:

Total de índices = 404.1 Ejercicio. Se tiene la siguiente serie de tiempo: Trimestr Año e 1 2 3 1 4 6 7 2 2 3 6 3 3 5 6 4 5 7 8 a) Determine los valores de promedio móvil y promedio móvil centrado de cuatro trimestre para esta serie de tiempo. b) Calcule los índices estacionales para los cuatro trimestres.

213

UNIDAD 4

214

ACTIVIDAD 1. INVESTIGAR LOS COMPONENTES DE UNA SERIE TEMPORAL

Instituto Tecnológico Superior de Coatzacoalcos

Febrero/2014 – Junio/2014 Nombre del Alumno

ORTIZ

MEDINA

Apellido Paterno

TANIA GUADALUPE

Apellido Materno

Nombre(s)

Reporte de Investigación ASIGNATURA: ESTADISTICA II

Nombre del Docente

LOPEZ Apellido Paterno

CARRERA:

ING.ADMINISTRACIÓN

No. Control:

12081419

215

Semestre: Fecha de inicio:

DE LOS SANTOS Apellido Materno

4º

FEB/14

EDUARDO Nombre(s)

Grupo: Fecha de término:

“A”

JUN/14

ÍNDICE

PRESENTACIÓN ........................................................................................................... 1

ÍNDICE ........................................................................................................................... 2

INTRODUCCIÓN ........................................................................................................... 3

DESARROLLO .......................................................................................................... 4-10

CONCLUSIÓN ............................................................................................................. 11

BIBLIOGRAFIA ............................................................................................................ 12

216

INTRODUCCIÓN

Este tema se dedica al estudio de las series temporales de un punto de vista clásico. En nuestro esquema de trabajo esto supone introducir explícitamente un elemento más: el factor tiempo, y a nuestros contenidos una forma más de análisis de los datos. La idea es que la historia de una serie de nos puede dar información que puede sernos útil para saber cómo se comporta esta serie en el futuro. Una serie temporal se puede definir como una sucesión de observaciones cuantitativas cronológicamente ordenadas, o como una distribución bidimensional en la cual una de las componentes es el tiempo y la otra la propia variable en estudio. Su representación gráfica es un diagrama de coordenadas en donde el eje de abscisas contiene al tiempo y el de ordenadas a la variable que se desea estudiar. Con esta investigación se podrán definir las componentes de una serie: componente tendencial, componente estacional, componente cíclica y la irregular determinar cómo se pueden calcular cada una de ellas, y, además, determinar cómo se pueden combinar estas para obtener la serie a partir del conocimiento de sus componentes.

217

4. SERIES DE TIEMPO 4.1 Los compontes de una serie de tiempo Una serie temporal o cronológica es una secuencia de datos, observaciones o valores, medidos en determinados momentos y ordenados cronológicamente. Los datos pueden estar espaciados a intervalos iguales (como la temperatura en un observatorio meteorológico en días sucesivos al mediodía) o desiguales (como el peso de una persona en sucesivas mediciones en el consultorio médico, la farmacia, etc.). Uno de los usos más habituales de las series de datos temporales es su análisis para predicción y pronóstico (así se hace por ejemplo con los datos climáticos, las acciones de bolsa, o las series de datos demográficos). El análisis más clásico de las series temporales se basa en la suposición de que los valores que toma la variable de observación es la consecuencia de cuatro componentes, cuya actuación conjunta da como resultado los valores medidos, estos componentes son: 

Componente de Tendencia



Componente Cíclico



Componente Estacional



Componente Irregular

Los cuales tienen una relación multiplicativa que dan forma al modelo clásico de series de tiempo, es decir, para cualquier período designado en la serie de tiempo, el valor de la variable está determinado por los cuatro componentes en la siguiente forma:

Y=TxCxExI

218

4.1.1 Componte de tendencia. Se denomina tendencia de una serie temporal a su comportamiento o movimiento a largo plazo. La tendencia de una serie de tiempo es el componente de largo plazo que representa el crecimiento o disminución en la serie sobre un periodo amplio. Como se puede ver la tendencia es la propensión al aumento o disminución en los valores de los datos de una serie de tiempo, que permanece a lo largo de un lapso muy extendido de tiempo, es decir que no cambiará en el futuro lejano mientras no hayan cambios significativos o radicales en el entorno en el que se encuentra inmersa y que determina el comportamiento de la serie de tiempo en estudio, cambios que podrían ser originados como por ejemplo, por descubrimientos científicos, avances tecnológicos, cambios culturales, geopolíticos, demográficos, religiosos, etc. Usaremos la notación

o bien

EJEMPLO: En la siguiente tabla se muestran los datos de una serie de tiempo con tendencia creciente.

219

En la siguiente gráfica se puede observar que los valores de los datos de la serie de tiempo tabulados en la Tabla 1.3 muestran un crecimiento notable al transcurrir un periodo de tiempo de consideración.

4.1.2 Componente Cíclico.

El componente cíclico es la fluctuación en forma de onda alrededor de la tendencia. La ciclicidad es un fenómeno que en lo general parece estar relacionado con la variación de la actividad económica ocurrida durante periodos de crisis o prosperidad. Es un conjunto de fluctuaciones en forma de onda o ciclos, de más de un año de duración, producidos por cambios en las condiciones económicas. Representan la diferencia entre los valores esperados de una variable (tendencia) y los valores reales (la variación residual que fluctúa alrededor de la tendencia). Son oscilaciones con periodicidad de entre año y medio y hasta diez años, dependiendo de la definición de ciclo que se utilice. Suelen ser menos frecuentes y menos sistemáticas que las estacionales.

220

EJEMPLO En la tabla que sigue podemos ver los valores de una serie mensual que presenta el fenómeno cíclico.

A continuación se encuentra la gráfica de los valores de la tabla 1.6 que presentan el comportamiento cíclico en su forma más pura.

221

4.1.3 Componente Estacional. Las fluctuaciones estacionales se encuentran típicamente en los datos clasificados por trimestres, mes o semana. La variación estacional se refiere a un patrón de cambio, regularmente recurrente a través del tiempo. El movimiento se completa dentro de la duración de un año y se repite a sí mismo año tras año. Patrones de cambio en una serie de tiempos en un año. Tales patrones tienden a repetirse cada año. El componente estacional se refiere a un patrón de cambio que se repite a si mismo año tras año. En el caso de las series mensuales, el componente estacional mide la variabilidad de las series de enero, febrero, etc. En las series trimestrales hay cuatro elementos estaciónales, uno para cada trimestre. La variación estacional puede reflejar condiciones de clima, días festivos o la longitud de los meses del calendario. Movimientos estacionales o variaciones estacionales. Se refieren a las fluctuaciones periódicas que se observan en series de tiempo cuya frecuencia es menor a un año (trimestral, mensual, diaria, etc.), aproximadamente en las mismas fechas y casi con la misma intensidad. EJEMPLO Variación mensual del desempleo en España entre los años 2002 y 2007.

222

4.1.4 Componente Irregular El componente aleatorio mide la variabilidad de las series de tiempo después de que se retiran los otros componentes. Contabiliza la variabilidad aleatoria en una serie de tiempo ocasionada por factores imprevistos y no ocurrentes. La mayoría de los componentes irregulares se conforman de variabilidad aleatoria. Sin embargo ciertos sucesos a veces impredecibles como huelgas, cambios de clima (sequías, inundaciones o terremotos), elecciones, conflictos armados o la aprobación de asuntos legislativos, pueden causar irregularidad en una variable. Movimientos irregulares o al azar o ruido estadístico. Si bien pueden ser generados por factores de tipo económico, generalmente sus efectos producen variaciones que solo duran un corto intervalo de tiempo. Aunque debe reconocerse que en ocasiones sus efectos sobre el comportamiento de una serie pueden ser tan intensos que fácilmente podrían dar lugar a un nuevo ciclo o a otros movimientos. Un claro ejemplo de esto es el efecto del shock de precios de agosto de 1990 sobre el comportamiento de la inflación. Al analizar una serie de tiempo es necesario, entonces, tener en consideración el comportamiento de cada uno de estos componentes. Para ello el criterio más lógico a seguir es aislarlos secuencialmente partiendo de la serie original para luego analizarlos de manera individual. Si bien esto supone la utilización de métodos estadísticos adecuados, que mas adelante veremos, la mejor forma de apreciarlos es a través de su observación visual. a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal. Un outliers es una observación de la serie que corresponde a un comportamiento anormal del fenómeno (sin incidencias futuras) o a un error de medición. Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe omitir o reemplazar por otro valor antes de analizar la serie.

223

EJEMPLO Un ejemplo que ilustra este tipo de comportamientos erráticos es cuando se dio el fenómeno de la influenza H1N1 en el 2009 lo cual generó una expectativa muy fuerte en las autoridades y civiles de nuestro país. Si observas la gráfica te darás cuenta que el número de decesos presenta un patrón irregular producto de la aparición de una nueva cepa del virus lo que intensifico entre el 19 de abril y el 1 de Mayo y a partir de ahí se mostraron números que de acuerdo a las instituciones de salud eran los normales; por lo que no se ha vuelto a presentar un fenómeno de esta forma en nuestro país. Esta variación irregular se debe a fenómenos que no se tienen contemplados; así mismo por ejemplo en estas mismas fechas la demanda de gel antibacterial, cubre bocas, sueros, inyecciones para la gripa, amentaron como nunca llegando inclusive al desabasto de dichos productos.

224

CONCLUSIÓN

Logramos concluir que las series temporales pueden servir para predecir acontecimientos futuros en base a ciertos comportamientos de determinadas variables y esto dependiendo de ciertos componentes con los que las series temporales de desarrollan de mejor manera. Las series de tiempo ayudan a describir, explicar, predecir y controlar aquellos procesos que de alguna manera se presentan en el tiempo, si bien ay que recordar que la observación se da de manera ordenada en el tiempo por lo que su aplicación se refleja de manera concreta en diferentes áreas científicas y sociales ayudando a pronosticar eventos futuros o a tomar decisiones importantes de diferentes tipos.

También nos queda claro que el análisis de series de tiempo según la tendencia es válido si es que no se dan otros factores que puedan influenciar de manera significativa la tendencia de ocurrencia de los datos, en nuestro caso un avance tecnológico inesperado podría alterar considerablemente el comportamiento de la tendencia.

225

BIBLIOGRAFÍA

 http://matematicas.reduaz.mx/home/Docentes/ltrueba/Series/admon4.htm

 http://www.eco.uva.es/estadmed/datos/series/series1.htm

 http://www.ccee.edu.uy/ensenian/licest/series1/notas_desc_08.pdf  http://www.seduca2.uaemex.mx/ckfinder/uploads/files/u3tema_3_series_de_t.pd f  http://es.wikipedia.org/wiki/Serie_temporal  http://www.slideshare.net/isaacgflores/anlisis-de-series-de-tiempo

226

ACTIVIDAD 2. INV. 2 EJEMPLOS PRACTICOS DE PRONOSTICOS EN UN PAQUETE DE DATOS.

Instituto Tecnológico Superior de Coatzacoalcos

Febrero/2014 – Junio/2014 Nombre del Alumno

ORTIZ

MEDINA

Apellido Paterno

TANIA GUADALUPE

Apellido Materno

Nombre(s)

Reporte de Investigación ASIGNATURA: ESTADISTICA II

Nombre del Docente

LOPEZ Apellido Paterno

CARRERA:

ING.ADMINISTRACIÓN

No. Control:

12081419

227

Semestre: Fecha de inicio:

DE LOS SANTOS Apellido Materno

4º

FEB/14

EDUARDO Nombre(s)

Grupo: Fecha de término:

“A”

JUN/14

ÍNDICE PRESENTACIÓN ........................................................................................................... 1

ÍNDICE ........................................................................................................................... 2

INTRODUCCIÓN ........................................................................................................... 3

DESARROLLO ............................................................................................................ 4-9

CONCLUSIÓN ............................................................................................................. 10

BIBLIOGRAFIA ............................................................................................................ 11

228

INTRODUCCIÓN

Los ejemplos prácticos para cualquier tipo de problemas siempre nos darán una visión más concreta para entender temas. En esta ocasión explicare 2 casos prácticos acerca de los métodos de suavizamiento de pronósticos que son temas sencillos pero es para entender mejor. También se explicara utilizando un paquete computacional que en este caso es Excel, con el es más sencilla la realización de ciertos cálculos y el muestreo de la grafica que nos piden ciertos ejercicios.

Pronóstico es un método mediante el cual se intenta conocer el comportamiento futuro de alguna variable con algún grado de certeza. Existen disponibles tres grupos de métodos de pronósticos: Los cualitativos, los de proyecciones históricas y los causales. Se diferencian entre sí por la precisión relativa del pronóstico del largo plazo en comparación con el corto plazo, el nivel de herramientas matemáticas requerido y la base de conocimiento como sustrato de sus proyecciones.

Existen métodos de suavizamiento en los pronósticos los cuales se pueden realizar mediante 3 formas principales:  Promedios Móviles  Promedios Móviles Ponderados  Suavizamiento Exponencial

229

EJEMPLOS PRÁCTICOS PARA GRAFICAR Y SOLUCIONAR PROBLEMAS DE PRONOSTICOS EN UN PAQUETE COMPUTACIONAL. Estos métodos eliminan

las

fluctuaciones

aleatorias

serie

de tiempo,

proporcionando datos menos distorsionados del comportamiento real de misma. Las series de tiempo llamadas también series cronológicas o series históricas son un conjunto de datos numéricos que se obtienen en períodos regulares y específicos a través del tiempo.

El principal objetivo de las series de tiempo es hacer proyecciones o pronósticos sobre una actividad futura, suponiendo estables las condiciones y variaciones registradas hasta la fecha, lo cual permite planear y tomar decisiones a corto o largo plazo.

Existen 3 métodos fundamentales a través de los cuales podemos obtener los pronósticos que deseamos: 

Promedios Móviles: Los promedios móviles se usan con frecuencia con los datos trimestrales o mensuales para ayudar a suavizar los componentes dentro de una serie de tiempo.



Promedios Móviles Ponderados: En la técnica de promedios móviles ponderados, implica la selección de pesos distintos para cada valor de los datos para después calcular en calidad de pronóstico un promedio ponderado.



Suavizamiento en los Pronósticos: Define el pronóstico del próximo periodo como el pronóstico del periodo actual más un porcentaje de la desviación entre el valor pronosticado para el periodo actual y el valor real obtenido.

230

EJEMPLO PRÁCTICO 1.

Con los siguientes datos acerca de la ventas en miles de dólares de la Empresa D & M durante los últimos 3 años tomados en períodos de trimestres:

Trimestre Ventas 1

1) Suavizar los datos empleando el método de los promedios móviles de orden 3 (longitud de 3 períodos). 2) Pronosticar las ventas para el trimestre número 13. 3) Suponga que para el Gerente de Ventas la última venta realizada es el doble de importante que la penúltima, y la antepenúltima venta tiene la mitad de importancia que la penúltima. Realizar el pronóstico de ventas para el trimestre número 13 empleando el método de los promedios móviles ponderados de orden 3. 4) Elaborar un gráfico en el que consten las ventas y los promedios móviles (ventas suavizadas).

231

Solución: 1) El cálculo de los promedios móviles de orden 3 se presentan en la siguiente tabla:

2) El último valor del promedio móvil, que en este ejemplo es 26,33, representa el pronóstico de las ventas para el trimestre número 13, y teóricamente para todo trimestre futuro. 3) Para resolver lo planteado se toma en cuenta las 3 últimas ventas con sus respectivos pesos o ponderaciones. Estos datos se presentan en la siguiente tabla: Trimestre

Ventas

Pesos (w)

0.5

Reemplazando valores en la fórmula de la media aritmética ponderada se obtiene:

El valor 30,14 es el pronóstico de ventas para el trimestre número 13.

232

Los cálculos en Excel se muestran en la siguiente figura:

4) El gráfico en el que constan las ventas y los promedios móviles se muestra en la siguiente figura elaborado empleando Excel:

Ventas de la empresa D&M en los ultimos 3 años 40

Millón de Dolares

35 30 25

20 15 10 5 0 1

Trimestre

233

10 11 12 13

EJEMPLO PRÁCTICO 2. La compañía del Valle conoce la demanda del Jugo de Uva. La gerencia de producción desea conocer: a) La demanda del mes de Junio de acuerdo a la siguiente información. b) Elaborar un gráfico en el que consten la demanda y la tendencia. MES

DEMANDA

TENDENCIA

(XY)

(X)(X)

(Y)

(X)

Enero

108

Febrero

119

Marzo

110

220

Abril

122

366

Mayo

130

520

Sumas

589

1225

a) SUSTITUCION DE VALORES EN LAS ECUACIONES: 589 = 5a + 10 b 1225=10a + 30 b RESOLUCION DEL SISTEMA DE ECUACIONES (-2) 589 = 5a + 10 b 1225=10a + 30 b 1178 = -10a - 20b 1125 = 10a + 30b 47 = 10b 47/10= b b= 4.7 SUSTITUCION DE b 589 = 5a + 10(4.7) 589 = 5a +47

234

589 – 47 = 5a

542 = 5a

542/5 = a

SUSTITUCION EN LA ECUACIÓN DEL PRONÓSTICO YP = a + bx YP = 108.4 + (4.7) (5) YP = 108.4 +23.5 YP = 131.9, Pronóstico mes de Junio

235

a= 108.4

b) Grafico: 160 140 120 100 DEMANDA

TENDENCIA

60 40 20 0 Enero Febrero Marzo

PAQUETE COMPUTACIONAL:

236

Abril

Mayo

Junio

Julio

Agosto

CONCLUSIÓN Con estos ejercicios prácticos que se explicaron nos queda mucho más claro los métodos que muchas veces se ocupan para obtener pronósticos específicos y mas hablando matemáticamente. Y al usar un paquete computacional mucho más ya que estos nos ayudaron a realizar cálculos más fácilmente y que solo con este logramos crear la grafica que cada ejercicio nos pide. Todos los procedimientos formales de pronóstico comprenden la extensión de las experiencias del pasado al futuro incierto. De ahí la suposición de que las condiciones que generaron los datos anteriores son indistinguibles de las condiciones futuras, con excepción de aquellas variables reconocidas de manera explícita por el modelo de pronóstico. Principalmente estos temas del pronóstico nos ayudan para apoyar a la toma de decisiones por parte de las Gerencias de Mercadeo, Ventas y Producción, se entrega un pronóstico para proveer con información congruente y exacta, la cual se calcula utilizando modelos matemáticos de pronóstico, datos históricos del comportamiento de las ventas y el juicio de los ejecutivos representantes de cada departamento involucrado de la empresa.

237

BIBLIOGRAFÍA

 http://books.google.com.mx/books?id=WaiOrL8oct4C&pg=PA110&lpg=PA110& dq=promedios+moviles&source=bl&ots=Yd9ArbdcZ_&sig=xYdF1aFbrXB_YXZk SWOGF63GLXI&hl=es&sa=X&ei=n9F3U7yJ4eFqgbW74GgBQ&ved=0CFUQ6AEwBw#v=onepage&q=promedios%20mo viles&f=false  http://www.ingenieria-industrial.net/index.php?accion=1&id=47

 www.ingenieria-industrial.net/index.php?accion=1&id=47  http://www.andragogy.org/_Cursos/Curso00169/Temario/pdf%20leccion%201/te ma_1_pyme.pdf

238

ACTIVIDAD 3. REALICE UN DIAGRAMA MULTIMEDIA EN XMIND DEL TEMA 4.2

239

ACTIVIDAD 4. VIDEO DEL TEMA 4.1

240

UNIDAD V ESTADÍSTICA NO PARAMÉTRICA

241

242

UNIDAD 5. ESTADÍSTICA NO PARAMÉTRICA. Las pruebas paramétricas requieren supuestos acerca de la naturaleza o forma de las poblaciones involucradas, las pruebas no paramétricas no requieren supuestos acerca de las distribuciones poblacionales. En consecuencia, las pruebas de hipótesis no paramétricas suelen llamarse pruebas de distribución libre. Aunque el término no parmétrica sugiere que la prueba no se basa en un parámetro, hay algunas pruebas no paramétricas que si dependen de un parámetro, como la media. Sin embargo, las pruebas no paramétricas no requieren una distribución en particular, por lo que algunas veces se les conoce como prueba de distribución libre. Aunque distribución libre es una descripción más precisa, por lo regular se utiliza el término no paramétrica. Ventajas de los métodos no paramétricos: 1. Los métodos no paramétricos se aplican a una amplia variedad de situaciones, puesto que no tienen los requisitos más estrictos de los métodos paramétricos correspondientes. En particular, los métodos no paramétricos no requieren poblaciones distribuidas normalmente. 2. A diferencia de los métodos paramétricos, los métodos no paramétricos con frecuencia se aplican a datos categóricos, como el género de quienes responden una encuesta. 3. Los métodos no paramétricos por lo regular implican cálculos más sencillos que los métodos paramétricos correspondientes, por lo tanto, son más fáciles de entender y aplicar. Desventajas de los métodos no paramétricos: 1. Los métodos no paramétricos tienden a desperdiciar información, pues los datos numéricos exactos suelen reducirse a una forma cualitativa. Por ejemplo, en la prueba del signo no paramétrica, las pérdidas de peso de las personas que se someten a una dieta se registran simplemente como signos negativos; las magnitudes reales de las pérdidas de peso se ignoran. 2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, por lo que para una prueba no paramétrica generalmente necesitaremos evidencia más fuerte para rechazar una hipótesis nula. 5.1 ESCALA DE MEDICIÓN. Escala nominal. En esta escala los números se usan solo para identificar categorías. No representan ninguna cantidad ni monto como tal. Ejemplo. Si cuatro áreas de ventas se numeran del 1 al 4 como números de identificación general. Entonces se emplea una escala nominal, ya que los números sirven simplemente como nombres de las categorías.

243

Escala ordinal. En esta escala, los números representan rangos o grados. Los números indican magnitud relativa, pero las diferencias entre rangos no se suponen iguales. Ejemplo. Un analista de inversiones clasifica cinco acciones del 1 al 5 en términos de potencial aumento de valor. La diferencia entre en el potencial aumento de valor entre las acciones clasificadas como 1 y 2 por lo general no será igual que. Por ejemplo la diferencia entre las acciones clasificadas como 3 y 4. Escala de intervalos. En esta escala. Se representan las diferencias medidas entre valores. Sin embargo, el punto cero es arbitrario y no es un cero “absoluto”. Por tanto, los números no pueden compararse mediante cocientes. Ejemplo. En cualquiera de las dos escalas de temperatura Fahrenheit o Celsius, una diferencia de 5°, por ejemplo de 70°F a 75°F, es la misma diferencia en temperatura que de 80°F a 85°F. Sin embargo, no se puede decir que 60°F sea el doble de calor que 30°F, debido a que el punto correspondiente a 0°F no es un punto cero absoluto (de completa ausencia de cualquier forma de calor). Escala de razón. En esta escala existe un verdadero punto cero, y por tanto las mediciones se pueden comparar en forma de cocientes. Ejemplo. No solamente es verdad que una diferencia en el valor de inventario de $5 000 es la misma diferencia entre, por ejemplo, $50 000 y $55 000 o entre $60 000 y $65 000; también es verdad que un valor de inventario de $100 000 es dos veces mayor que un valor de inventario de $50 000. 5.2 MÉTODOS ESTADÍSTICOS CONTRA NO PARAMETRICOS. El punto central del análisis paramétrico es algún parámetro poblacional para el que el estadístico muestral sigue una distribución conocida, las mediciones que se realizan pertenecen a las escalas de intervalo o de razón. Cuando no se satisface uno o más de estos requisitos o supuestos, entonces se puede usar los métodos llamados no paramétricos. Un término alternativo es método de distribución libre, el cual se enfoca de manera especial al hecho de que no se conoce la distribución del estadístico muestral. Si se justifica el uso de una prueba paramétrica, tal como la prueba “t”, entonces siempre se preferirá su uso al de su equivalente no paramétrica. Esto se debe a que si se usa el mismo nivel de significancia para ambas pruebas, entonces la potencia correspondiente a la prueba no paramétrica siempre es menor que la prueba paramétrica equivalente (la potencia de una prueba estadística es la probabilidad de rechazar una hipótes nula falsa). Las pruebas no paramétricas con frecuencia se usan con muestras pequeñas, debido a que con este tIpo de muestra no se puede invocar el teorema del límite central.

244

Las pruebas no paramétricas pueden estar dirigidas hacia hipótesis concernientes a la forma, la dispersión o la localización (la mediana) de una población. En la mayoría de las aplicaciones, las hipótesis se refieren al valor de la media, a la diferencia entre medias o la diferencia entre varias medias. Esto contrasta con los procedimientos paramétricos que se centran sobre todo en las medias poblacionales. La prueba Chi cuadrada representa un ejemplo de una prueba no paramétrica, ya que los datos que se analizan pertenecen a la escala nominal (datos categóricos). 5.3 PRUEBA DE CORRIDAS PARA ALEATORIEDAD. Una corrida es una serie de observaciones iguales. La prueba de corridas se usa para probar la aleatoriedad de una serie de observaciones cuando cada observación puede ser asignada a una de dos categorías. Ejemplo. Suponga que cuando una muestra aleatoria de n=10 personas se clasifica de acuerdo con el sexo, la secuencia de las observaciones es: M, M, M, M, F, F, F, F, M, M, en estos datos hay tres corridas o series de elementos iguales. Tratándose de datos numéricos, una manera de obtener un esquema de dos categorías es clasificar cada observación como superior o inferior a la mediana del grupo. En general, tanto muchas menos como muchas más corridas de las que se esperarían por azar conducen a rechazar la hipótesis nula de que la sucesión de las observaciones sea aleatoria. El número de corridas de elementos iguales se establece a partir de los datos muestrales usando el símbolo “R” para designar el número de corridas observadas. Si n1 es el número de elementos de un tipo en la muestra y n 2 es el número de elementos del otro tipo en la muestra, la media y el error estándar correspondiente a la distribución muestral del estadístico de la prueba “R” cuando la sucesión es aleatoria son: 2 n1 n2 u R  n1  n2  1 2 n1 n2 2 n1 n2  n1  n2  



n  n  n  n  1 2

Si n1>20 o n2>20, la distribución muestral de “r” se aproxima a la distribución normal. Por tanto, bajo tales circunstancias el estadístico “R” se puede convertir en el estadístico de la prueba “z” como sigue: R  uR Z



Ejemplo: Se entrevistó a una muestra de 36 personas en una encuesta de investigación de mercados, con 22 mujeres (M) y 14 hombres (H) incluidos en la muestra. Las personas que integraron la muestra se obtuvieron en el siguiente orden: H, M, M, M, M, H, H, H, M, H, M, M, M, H, H, M, M, M, M, H, M, M, M, H, H, M, M, M,

245

H, M, H, H, M, M, M, H. Use la prueba de corridas para probar la aleatoriedad de este conjunto de observaciones, use un nivel de significancia de 5%. Solución. 2 n1 n2 (2)(22)(14) 616 u R  n1  n2  1  22  14  1  36  1  18.1 2 n1 n2 2 n1 n2  n1  n2  ( 2)( 22)(14)( 2)( 22)(14)  22  14 (616)(616  36)   2 2 2 R (36) (35)  22  14 (22  14  1) n1 n2 n1  n2  1





357280  2.81 45360 Con un nivel de 5% de significancia. Los valores críticos de z=1.96 R  uR 17  18.1 Z   0.39 2.81 R Por lo tanto no se puede rechazar la hipótesis nula de que la secuencia de mujeres y hombres haya ocurrido de forma aleatoria. 

Ejercicios 1. Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente uno de dos tipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niños de un vecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivas para ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usando los símbolos A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotes se presentó como sigue: B, A, B, B, B, A, A, A, B, B, A, B, B, B, B, A, A, A, A, B, A, B, A, A, B, B, B, A, A, B, A, A, A, A, B, B, A, B, B, A, A, A, A, B, B, A, B, B, B, B, A, A, B, B, A, B, A, A, B, B. Solución: 2 n1 n2 (2)(29)(31) 1798 u R  n1  n2  1  29  31  1  60  1  30.97 2 n1 n2 2 n1 n2  n1  n2  ( 2)( 29)(31)( 2)( 29)(31)  29  31 (1798)(1738)   2 2 2 R (60) (59)  29  31 (29  31  1) n1 n2 n1  n2  1





3124924  3.83 212400 Con un nivel de 5% de significancia. Los valores críticos de z=1.96 R  uR 29  30.97 Z   0.513 3.84 R 

No se rechaza la hipótesis nula y concluir que los muñecos se ponen en las cajas en orden aleatorio. 2. La tabla siguiente reporta una muestra de 40 montos de préstamos personales, la sucesión en la que se recolectaron los datos fue en sentido de los renglones de la tabla. La mediana del monto de los préstamos en la tabla es $944.50. Pruebe la

246

aleatoriedad de esta sucesión de montos de préstamos clasificando cada cantidad como superior o inferior a la mediana. Use un nivel de significancia de 5%. 932 1000 356 2227 515 554 1190 954 452 973 300 2112 1900 660 1610 445 1200 720 1525 784 1278 1388 1000 870 2540 851 1890 630 586 329 935 3000 1650 1423 592 334 1219 727 655 590 Solución: 2 n1 n2 (2)(21)(19) 798 u R  n1  n2  1  21  19  1  40  1  20.95 2 n1 n2 2 n1 n2  n1  n2  ( 2)( 21)(19)( 2)( 21)(19)  21  19 (798)(758)   2 2 2 R ( 40) (39)  21  19 (21  19  1) n1 n2 n1  n2  1





604884  3.11 62400 Con un nivel de 5% de significancia. Los valores críticos de z=1.96 R  uR 28  20.95 Z   2.26 3.11 R 

Se rechaza la hipótesis nula 5.4 UNA MUESTRA: PRUEBA DE SIGNOS. La prueba de signos puede usarse para probar una hipótesis nula respecto al valor de la mediana poblacional. Por tanto, es el equivalente no paramétrico a una prueba de hipótesis respecto al valor de la media poblacional. Se requiere que los valores de la muestra aleatoria pertenezcan por lo menos a la escala ordinal, sin que requiera ningún supuesto acerca de la forma de la distribución de la población. Ejemplo: Se afirma que el número de unidades que se ensambla con un sistema rediseñado va a ser mayor que con el sistema anterior, para el cual la median poblacional es de 80 unidades por turno de trabajo. Sin otorgarle el beneficio de la duda al sistema rediseñado. Pruebe con un nivel de significancia de 55 Realice la prueba de signos. Turno de trabajo que se Unidades ensambladas Signo de la diferencia muestreo (x) (X-80) 1 75 2 85 + 3 92 + 4 80 0 5 94 + 6 90 + 7 91 + 8 76 9 88 +

247

10 11 12

82 96 83

+ + +

p=0.5 q=0.5 n=11 x=9.10.11 Respuesta 0.0328 La siguiente tabla reporta las ventas unitarias de una nueva herramienta en una muestra de 12 sucursales durante cierto mes. No se conoce la forma de la distribución y por tanto, dado el pequeño tamaño de la muestra, una prueba estadística paramétrica no es adecuada. Use la prueba de signos respecto a la hipótesis nula de que la mediana del monto de ventas en la población no es mayor que 10 unidades por sucursal. Use un nivel de significancia de 5% Herramientas/sucursal 8 18 9 12 10 14 16 7 14 11 10 20 Respuesta 0.1719 la hipótesis nula no puede rechazarse

5.5 UNA MUESTRA: PRUEBA DE WILCOXON. 5.6 DOS MUESTRAS: PRUEBA DE MANN-WHITNEY. 5.7 OBSERVACIONES PAREADAS: PRUEBA DE SIGNOS. 5.8 OBSERVACIONES PAREADAS PRUEBA DE WILCOXON. 5.9 VARIAS MUESTRAS INDEPENDIENTES: PRUEBA DE KRAUSKAL_WALLIS. 5.10 APLICACIONES DEL PAQUETE COMPUTACIONAL.

248

UNIDAD 5 249

250

ACTIVIDAD 1. CITAR VENTAJAS Y DESVENTAJAS DE UTILIZAR METODOS NO PARAMETRICOS.

Instituto Tecnológico Superior de Coatzacoalcos

Febrero/2014 – Junio/2014

Nombre de las Alumnas:

DÍAZ ORTIZ

MAILY CAROLINA TANIA GUADALUPE

MEDINA

Tarea 1. Unidad 5 ASIGNATURA: ESTADISTICA II

Nombre del Docente

CARRERA: No. Control:

251

LOPEZ Apellido Paterno

ING.ADMINISTRACIÓN 12081375 12081419

Semestre: Fecha de inicio:

DE LOS SANTOS Apellido Materno

4º

FEB/14

EDUARDO Nombre(s)

Grupo: Fecha de término:

“A”

JUN/14

o CITAR LAS VENTAJAS Y DESVENTAJAS DE UTILIZAR MÉTODOS NO PARAMÉTRICOS.

Métodos no paramétricos Ventajas Desventajas 1.- No requieren la suposición de que 1.- Ignoran cierta cantidad de una población está distribuida en forma información. de curva normal u otra forma específica. 2.- A menudo no son tan eficientes o claras como las pruebas paramétricas. 2.- Generalmente, es más sencillo Cuando se hacen pruebas no realizarlas y entenderlas, la mayor parte paramétricas perdemos agudeza en la de las pruebas no paramétricas no estimación de intervalos, pero ganamos exigen de cálculos laboriosos a menudo la posibilidad de usar menos necesarios, por ejemplo: Para calcular información y calcular con mayor una desviación estándar. rapidez. 3.- Algunas veces ni siquiera se requiere un ordenamiento o clasificación formal. Muchas veces lo que podemos hacer es describir un resultado como mejor que otro. Cuando esto ocurre, o cuando nuestras mediciones no son tan exactas como es necesario para las pruebas paramétricas, podemos usar métodos no paramétricos.

3.- No son sistemáticas. 4.- No se tiene una distribución fija para este tipo de prueba, por lo que en ocasiones puede ser un problema el elegir el resultado adecuado.

5.- Las tablas necesarias para aplicar las pruebas no paramétricas están muy difundidas y aparecen en diferentes formatos lo que ocasiona confusión en 4.- Si el tamaño de la muestra es muy el investigador. pequeño puede no haber otra opción que usar una prueba o método de 6.- Son menos sensibles ese, por estadística no paramétrica, a menos ejemplo, diferencias más grandes son que la naturaleza de la distribución de necesarias rechazar la hipótesis nula. la población se conozca con exactitud. 7.- Tiende para ser menos eficiente. 5.- Las pruebas no paramétricas Tamaños de muestra más grandes se típicamente hacen menos suposiciones requieren generalmente. Por ejemplo, acerca de los datos y pueden ser aun la prueba de muestra no paramétrica es más relevantes a una situación el cerca de 60% tan eficiente como la particular. prueba de z. 6.- Son más investigación.

la 8.- Los métodos no paramétricos tienden a desperdiciar información porque los datos numéricos exactos 7.- Los métodos no paramétricos están suelen reducirse a una forma disponibles para tratar datos que son cualitativa.

252

adecuadas

para

simplemente clasificatorios o 9.- Llevan a una mayor probabilidad de categóricos, es decir, que son medidos no rechazar una hipótesis nula falsa en una escala nominal. (incurriendo en un error de tipo II). 8.- Son adecuadas para tratar muestras 10.- No hacen suposiciones sobre la obtenidas de observaciones de constitución de los datos de la diferentes poblaciones. población. 9.- Son más fáciles de aprender y su interpretación suele ser más directa. 10.- En la mayoría de los casos, los cómputos son más fáciles que ésos para las contrapartes paramétricas.

253

ACTIVIDAD 2. 3 EJEMPLOS DE LA PRUEBA DE SIGNOS

Instituto Tecnológico Superior de Coatzacoalcos

Febrero/2014 – Junio/2014

Nombre del Alumno

DÍAZ ORTIZ Apellido Paterno

MEDINA Apellido Materno

MAILY CAROLINA TANIA GUADALUPE Nombre(s)

Reporte de Investigación ASIGNATURA:

ESTADISTICA II

Nombre del Docente

CARRERA: No. Control:

254

LOPEZ Apellido Paterno

ING.ADMINISTRACIÓN 12081375 12081419

Semestre: Fecha de inicio:

DE LOS SANTOS Apellido Materno

4º

FEB/14

EDUARDO Nombre(s)

Grupo: Fecha de término:

“A”

JUN/14

Prueba del Signo para Muestras Pareadas EJEMPLO 1 Una compañía de taxis trata de decidir si el uso de llantas radiales en lugar de llantas regulares con cinturón mejora la economía de combustible. Se equipan 16 automóviles con llantas radiales y se manejan por un recorrido de prueba establecido. Sin cambiar de conductores, se equipan los mismos autos con llantas regulares con cinturón y se manejan una vez más por el recorrido de prueba. Se registra el consumo de gasolina, en kilómetros por litro, de la siguiente manera: Automóvil

Llantas radiales

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9

Llantas con cinturón 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8

¿Se puede concluir en el nivel de significancia de 0.05 que los autos equipados con llantas radiales obtienen mejores economías de combustible que los equipados con llantas regulares con cinturón? Solución:

255

Regla de decisión: Si zR

1.645 no se rechaza Ho.

Si zR> 1.645 se rechaza Ho. Se procede a realizar las diferencias entre de los kilómetros por litro entre llantas radiales y con cinturón: Automóvil

Llantas radiales

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

4.2 4.7 6.6 7.0 6.7 4.5 5.7 6.0 7.4 4.9 6.1 5.2 5.7 6.9 6.8 4.9

Llantas con cinturón 4.1 4.9 6.2 6.9 6.8 4.4 5.7 5.8 6.9 4.9 6.0 4.9 5.3 6.5 7.1 4.8

d + + + + 0 + + 0 + + + + +

Al observar las diferencias se ve que sólo existe una n=14, ya que se descartan los valores de cero. Se tiene r+ = 11

Decisión y conclusión: Como 2.14 es mayor a 1.645 se rechaza H0 y se concluye con un llantas radiales mejoran la economía de combustible.

256

= 0.05 que las

EJEMPLO 2 Un artículo informa cerca de un estudio en el que se modela el motor de un cohete reuniendo el combustible y la mezcla de encendido dentro de un contenedor metálico. Una característica importante es la resistencia al esfuerzo cortante de la unión entre los dos tipos de sustancias. En la siguiente tabla se muestran los resultados obtenidos al probar 20 motores seleccionados al azar. Se desea probar la hipótesis de que la mediana de la resistencia al esfuerzo cortante es 2000 psi, utilizando = 0.05. Solución: Se mostrará la tabla del ejercicio y es función del investigador poner los signos con respecto a la mediana.

Observación

1 2 3 4 5 6 7 8 9 10

Resistencia al esfuerzo cortante xi

2158.70 1678.15 2316.00 2061.30 2207.50 1708.30 1784.70 2575.10 2357.90 2256.70

Signo de la diferencia xi2000

+ + + + + + +

Observación

11 12 13 14 15 16 17 18 19 20

Resistencia al esfuerzo cortante xi

2165.20 2399.55 1779.80 2336.75 1765.30 2053.50 2414.40 2200.50 2654.20 1753.70

Signo de la diferencia xi-2000

+ + + + + + + -

De la tabla se puede observar que el estadístico de prueba r+ = 14. Regla de decisión: Si el valor de P correspondiente a r+=14 es menor o igual que =0.05 se rechaza H0. Cálculos: Puesto que r+=14 es mayor que n/2=20/2=10, el valor de P se calcula de P=2P(R+

14 cuando p = ½)

La P se calcula con la fórmula de la distribución binomial:

257

Conclusión: Como P=0.1153 no es menor que =0.05, no es posible rechazar la hipótesis nula de que la mediana de la resistencia al esfuerzo constante es 2000 psi. EJEMPLO 3 Como parte de un estudio sobre transferencia del aprendizaje entre tareas simples y complejas, se diseña un experimento en el que cada sujeto se le presenta 5 tareas simples y a continuación 1 tarea compleja. Al finalizar ésta se le pregunta a cada sujeto si le ha parecido más fácil o más difícil que las 5 anteriores. Si algún sujeto contestaba “igualmente difícil”, se le seguía preguntando hasta decidirse por “más fácil “o “más difícil “. Las respuestas dadas por los 10 sujetos fueron: SUJETO

1 2 3 4 5 6 7 8 9 10

RESPUESTA D F F D F F F D F F ¿Podemos concluir que ha habido transferencia, a un nivel de significación de 0,01? Siendo D (Mas difícil = - ) y F = + -) "½ (No ha habido transferencia) H1: P (-) <½ (Ha habido transferencia) las observaciones son independientes y que bajo H0 p (-) es constante por cada sujeto. (3 + 0,5) - (10 / 2) Z = -0,949 10 / 4 : 0,01 y Z0, 01 = -2,33:

-0,949 > -2,33, mantenemos H0. No hay evidencia suficiente para concluir que ha habido transferencia. Sólo si T hubiera tomado valor 0, podríamos haber llegado a tal conclusión ya que P (T " 0) " 0,001 < 0,01.

258

ACTIVIDAD 3. INVESTIGAR EN QUE CONSISTE LA PRUEBA DE CORRIDAS

Instituto Tecnológico Superior de Coatzacoalcos

Febrero/2014 – Junio/2014

Nombre del Alumno

DÍAZ ORTIZ Apellido Paterno

MEDINA Apellido Materno

MAILY CAROLINA TANIA GUADALUPE Nombre(s)

Reporte de Investigación ASIGNATURA: ESTADISTICA II

Nombre del Docente

CARRERA: No. Control:

259

LOPEZ Apellido Paterno

ING.ADMINISTRACIÓN 12081375 12081419

Semestre: Fecha de inicio:

DE LOS SANTOS Apellido Materno

4º

FEB/14

EDUARDO Nombre(s)

Grupo: Fecha de término:

“A”

JUN/14

ÍNDICE PRESENTACIÓN ........................................................................................................... 1

ÍNDICE ........................................................................................................................... 2

INTRODUCCIÓN ........................................................................................................... 3

DESARROLLO ............................................................................................................ 4-9

CONCLUSIÓN ............................................................................................................. 10

BIBLIOGRAFIA ............................................................................................................ 11

260

INTRODUCCIÓN

Antes de adentrar al tema de la prueba de corridas para analizar la aleatoriedad pues debemos tomar en cuenta que esta se encuentra dentro de la estadística no paramétrica que es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori (se utilizan para distinguir entre dos tipos de conocimiento: el conocimiento a priori es aquel que, en algún sentido importante, es independiente de la experiencia; mientras que el conocimiento a posteriori es aquel que, en algún sentido importante, depende de la experiencia.), pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. Este método es muy importante ya que su principal objetivo o uso es para que se analice la aleatoriedad de varias observaciones pero esto será cuando cada observación se le puede asignar hasta dos categorías.

261

PRUEBA DE CORRIDAS PARA ANALIZAR LA ALEATORIEDAD DE UNA SERIE DE OBSERVACIONES CUANDO CADA OBSERVACION PUEDE SER ASIGNADA ADOS CATEGORIAS. Una corrida es una serie de observaciones similares. La prueba de corridas se usa para probar la aleatoriedad de una serie de observaciones cuando cada observación puede ser asignada a una de dos categorías. Es un método para determinar la aleatoriedad con la que se han seleccionado los elementos muestreados. Concepto de aleatoriedad. Aleatorio se asocia a todo proceso cuyo resultado no es previsible más que en razón de la intervención del azar. El término aleatoriedad se usa a menudo como sinónimo con un número de propiedades estadísticas medibles, tales como la carencia de tendencias o correlación. El resultado de todo suceso aleatorio no puede determinarse en ningún caso antes de que este se produzca. El estudio de los fenómenos aleatorios queda dentro del ámbito de la teoría de la probabilidad y, en un marco más amplio, en el de la estadística. Teoría de corridas. Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidas de ocurrencias diferentes. Por ejemplo:

Una prueba de corridas con dos tipos de ocurrencias tiene los siguientes símbolos: n1= número de ocurrencias del tipo 1 n2= número de ocurrencias del tipo 2

262

r= número de corridas Ejemplo 1. En relación con una muestra aleatoria de n = 10 individuos, supongamos que cuando se les clasifica por sexo la secuencia de observaciones es: M, M, M, M, F, F, F, F, M, M. Estos datos contienen tres corridas, o series de elementos semejantes. Respecto de datos numéricos, un medio para obtener el esquema requerido de dos categorías es clasificar cada observación según si es superior o inferior a la mediana del grupo. En general, mucho menos corridas o mucho más corridas que las que serían de esperar al azar resultarían en el rechazo de la hipótesis nula de que la secuencia de observaciones es una secuencia aleatoria. El número de corridas de elementos semejantes se determina de acuerdo con los datos muéstrales, con el uso del símbolo R para designar el número de corridas observadas. Sin1 equivale al número de elementos muestreados de un tipo y n2 al número de elementos muestreados del segundo tipo, la media y el error estándar asociados con la distribución de muestreo de la estadística de prueba R cuando la secuencia es aleatoria son Sin, n1 > 20 o n2 > 20, la distribución de muestreo de r aproxima la distribución normal. Por lo tanto, en estas circunstancias la estadística R puede convertirse a la estadística de prueba z. Ejemplo 2. Un fabricante de cereal para el desayuno usa una máquina para introducir aleatoriamente uno de los dos tipos de muñecos en cada caja. La compañía desea una aleatoriedad tal que no todos los niños de un vecindario terminen con el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivas para ver si la máquina está mezclando adecuadamente los dos tipos de muñecos. Usado los símbolos A y B para representar los dos tipos de muñecos, un probador reportó que uno de estos lotes se presentó como sigue:

263

B,A,B,B,B,A,A,A,B,B,A,B,B,B,B,A,A,A,A,B,A,B,A,A,B,B,B,A,A,B,A,A,A,A,B,B,A, B,B,A,A,A,A,B,B,A,B,B,B,B,A,A,B,B,A,B,A,A,B,B. Valores de la prueba: n1= 29 n2= 31 r= 29

264

CORRIDAS POR ARRIBA Y POR ABAJO DEL PROMEDIO Procedimiento Generar la muestra de tamaño N de números aleatorios. Con base en esta muestra, obtener una nueva sucesión binaria, según el criterio siguiente:

Si rj es menor o igual a 0.50 entonces asignarle a rj el símbolo 0. Si rj es mayor a 0.50 entonces asignarle a rj el símbolo 1. La frecuencia esperada para cada longitud de corrida i, es:

EJEMPLO 6. Dada la siguiente muestra de tamaño 30 de números aleatorios, aplicar la prueba de corridas, para la independencia

Comparando los números aleatorios según el criterio establecido, se obtiene la siguiente sucesión binaria. Leyendo de izquierda a derecha se agrupan los símbolos del mismo tipo para formar las corridas.

265

En la siguiente tabla se resume la información necesaria para el cálculo de la Jicuadrada

Como para las longitudes de corrida i = 2, 3, 4, 5; las frecuencias observadas son menores o igual a cinco, agrupamos estas longitudes de corridas en una sola longitud de corrida? 2.

El valor en tablas de X21.5%= 3.84; entonces no se puede rechazar la independencia de los números aleatorios.

CORRIDAS ASCENDENTES Y DESCENDENTES Procedimiento 1.

Generar

muestra

tamaño

números

aleatorios.

2. Construir la sucesión binaria de acuerdo al siguiente criterio: Si

menor

igual

rj+1 entonces

asignarle

Si rj es mayor que rj+1 entonces asignarle a rj el símbolo 1.

266

rj el

símbolo

3. Con base en la distribución X2, efectuar la prueba, donde la frecuencia esperada de las longitudes de corrida i se calculará con:

EJEMPLO. Aplicar la prueba de las corridas ascendentes y descendentes a la muestra de números aleatorios del ejemplo anterior. Compararemos a los números por fila, pero es indistinto hacerlo por columna. 0.15

0.31

0.81

0.48

0.01

0.60

0.26

0.34

0.70

0.31

0.07

0.06

0.33

0.49

0.77

0.04

0.43

0.92

0.25

0.83

0.68

0.97

0.11

0.00

0.18

0.11

0.03

0.59

0.25

0.55

Ahora la sucesión binaria es 0

Obsérvese que la última celda se deja en blanco, pues no hay con que número comparar. (Aquí N = 29)

267

Longitud de corrida i

(FE-FO)2/FE

11.500

0.020

5.083

0.001

1.400

0.257

0.292

0.005

(FE-FO)2/FE

11.500

0.020

>=2

6.483

0.004 X02 = 0.024

Como el valor calculado de 0.024 es menor que el valor en tablas de Jicuadrada X21.5%= 3.84, no se puede rechazar la independencia de los nĂşmeros aleatorios.

268

CONCLUSIÓN Con estos temas sobre la prueba vista desde sus ámbitos logramos conocer al detalle su aleatoriedad de una serie y sus observaciones, aun cuando cada observación se asigna a dos categorías. Las pruebas principales para revisar la uniformidad ayuda de manera importante y la prueba de corridas es esencial ya que vimos que sirven generalmente para verificar si una variable aleatoria sigue una distribución potencial y también sabemos que existen muchas pruebas para excluir determinadas regularidades con los datos generados; cada prueba chequea un solo aspecto de las posibles dependencias pero obviamente tomando en cuenta las aleatoriedades de las series aplicadas. ORTIZ MEDINA TANIA GUADALUPE

En mi opinión la prueba de corridas es muy importante ya que sirve para conocer la aleatoriedad, también cabe recalcar que la aleatoriedad es el hecho de que tanto lo experimental como el orden en que se realizan las pruebas individuales o ensayos se determinan aleatoriamente. Lo que fundamentalmente se busco en esta investigación fue entender más que nada por medio de ejemplos en que tipos de ejercicios aplicar las distintas pruebas de corridas aun cuando aquí nos referimos más en las de aleatoriedad para las series. Debemos tomar en cuenta cada procedimiento para obtener resultados correctos y tomar las mejores decisiones respecto a un problema con series y dos categorías. DIAZ MAILY CAROLINA

269

BIBLIOGRAFÍA

 http://www.slideshare.net/FELIXCastroGarcia/unidad-v-estadstica-no-paramtrica  http://pendientedemigracion.ucm.es/info/Astrof/POPIA/asignaturas/ana_dat_est/ tema07.pdf

 http://www.tesoem.edu.mx/alumnos/cuadernillos/2010.031.pdf

 www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r52509.DOCX

 http://webcache.googleusercontent.com/search?q=cache:kWfbBuaAescJ:www.s ites.upiicsa.ipn.mx/polilibros/portal/Polilibros/P_terminados/SimSist/doc/SIMULA CI-N-131.htm+&cd=6&hl=es&ct=clnk&gl=mx

270

ACTIVIDAD 4. REALIZAR 3 EJEMPLOS PRACTICOS DE PRUEBA DE SIGNOS Y WILCOXON PARA OBSERVACIONES PAREADAS

Instituto Tecnológico Superior de Coatzacoalcos Febrero/2014 – Junio/2014

Nombre del Alumno

DÍAZ ORTIZ Apellido Paterno

MEDINA Apellido Materno

MAILY CAROLINA TANIA GUADALUPE Nombre(s)

Reporte de Investigación ASIGNATURA: ESTADISTICA II

Nombre del Docente

CARRERA: No. Control:

271

LOPEZ Apellido Paterno

ING.ADMINISTRACIÓN 12081375 12081419

Semestre: Fecha de inicio:

DE LOS SANTOS Apellido Materno

4º

FEB/14

EDUARDO Nombre(s)

Grupo: Fecha de término:

“A”

JUN/14

Prueba de signos y Wilcoxon para observaciones pareadas probando hipótesis de que 2 muestras son iguales. EJEMPLO 1 Los siguientes datos representan el número de horas que un compensador opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el nivel de significancia de 0.05 que este compensador particular opera con una media de 1.8 horas antes de requerir una recarga. Solución: H0; = 1.8 H1; 1.8 Se procederá a efectuar las diferencias y a poner rango con signo a los datos. Dato di = dato - 1.8 Rangos 1.5 -0.3 5.5 2.2 0.4 7 0.9 -0.9 10 1.3 -0.5 8 2.0 0.2 3 1.6 -0.2 3 1.8 0 Se anula 1.5 -0.3 5.5 2.0 0.2 3 1.2 -0.6 9 1.7 -0.1 1 Regla de decisión: Para una n = 10, después de descartar la medición que es igual a 1.8, la tabla A.16 muestra que la región crítica es w 8. Cálculos: w+ = 7 + 3 + 3 = 13 w- = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42 Por lo que w = 13 (menor entre w+ y w-). Decisión y Conclusión: Como 13 no es menor que 8, no se rechaza H0 y se concluye con un = 0.05 que el tiempo promedio de operación no es significativamente diferente de 1.8 horas.

272

EJEMPLO 2 Se afirma que un estudiante universitario de último año puede aumentar su calificación en el área del campo de especialidad del examen de registro de graduados en al menos 50 puntos si de antemano se le proporcionan problemas de muestra. Para probar esta afirmación, se dividen 20 estudiantes del último año en 10 pares de modo que cada par tenga casi el mismo promedio de puntos de calidad general en sus primeros años en la universidad. Los problemas y respuestas de muestra se proporcionan al azar a un miembro de cada par una semana antes del examen. Se registran las siguientes calificaciones del examen: Par

1 2 3 4 5 6 7 8 9 10

Con problemas de muestra 531 621 663 579 451 660 591 719 543 575

Sin problemas de muestra 509 540 688 502 424 683 568 748 530 524

Pruebe la hipótesis nula en el nivel de significancia de 0.05 de que los problemas aumentan las calificaciones en 50 puntos contra la hipótesis alternativa de que el aumento es menor a 50 puntos. Solución: La prueba de rango con signo también se puede utilizar para probar la hipótesis nula 1- 2 = d0. En este caso las poblaciones no necesitan ser simétricas. Como con la prueba de signo, se resta d0 de cada diferencia, se clasifican las diferencias ajustadas sin importar el signo y se aplica el mismo procedimiento. En este caso d0 = 50, por lo que se procede a calcular las diferencias entre las muestras y luego restarles el valor de 50. Se representara con 1 y 2 la calificación media de todos los estudiantes que resuelven el examen en cuestión con y sin problemas de muestra, respectivamente. H0; 1 - 2 = 50 H1; 1 - 2 < 50 Regla de decisión: Para n=10 la tabla muestra que la región crítica es w+ 11.

273

Cálculos: Par

1 2 3 4 5 6 7 8 9 10

Con problemas de muestra 531 621 663 579 451 660 591 719 543 575

Sin problemas de muestra 509 540 688 502 424 683 568 748 530 524

22 81 -25 77 27 -23 23 -29 13 51

di – d0

-28 31 -75 27 -23 -73 -27 -79 -37 1

Rangos

5 6 9 3.5 2 8 3.5 10 7 1

w+ = 6 + 3.5 + 1 = 10.5 Decisión y Conclusión: Como 10.5 es menor que 11 se rechaza H0 y se concluye con un = 0.05 que los problemas de muestra, en promedio, no aumentan las calificaciones de registro de graduados en 50 puntos.

EJEMPLO 3 Un investigador desea comparar el nivel de C.I. en jóvenes universitarios del 1er semestre con el C.I. de los mismos universitarios cuando estén en 6to semestre. Elección de la prueba estadística. El modelo experimental tiene dos muestras dependientes. Las mediciones no tienen una escala de intervalo, por lo que su ordenamiento se hace en escala ordinal. Planteamiento de la hipótesis.  Hipótesis alterna (Ha). El nivel de C.I. de los jóvenes universitarios estando en 1er semestre es menor al que adquieren al estar en 6to semestre.  Hipótesis nula (Ho). No habrá diferencia en el nivel de C.I. de los jóvenes universitarios estando en 1er semestre y cuando estén en 6to semestre. Nivel de significación. Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se rechaza Ho.

274

Zona de rechazo. Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha. Aplicación de la prueba estadística. Efectuar las diferencias entre los datos sobre le C.I. antes y después, elaborar los rangos de las diferencias y hacer la sumatoria de los rangos de signo de menor frecuencia.

Sumat oria de T = 201.5 La sumatoria del valor T de Wilcoxon es igual a 201.5 y, como se especificó en los pasos, éste se debe transformar en valor de Z, para conocer la probabilidad de que aquella sea o no significativa. Para ello debemos calcular primero el promedio y la desviación estándar de la T de Wilcoxon.

275

Una vez calculados el promedio y la desviación estándar del valor T de Wilcoxon, calculamos el valor Z.

El valor ZT calculado se localiza entre los valores Z de la distribución normal de la tabla de probabilidades asociadas en valores extremos como los de 2 en la distribución normal. En la intersección de la hilera donde se encuentra el 0.6 y la columna 0.03, se puede observar la cifra 0.2643, la cual indica la probabilidad de que la magnitud de ZT difiera de T. Decisión. La probabilidad de 0.2643 es mayor que 0.05, por lo cual se acepta Ho y se rechaza Ha. 0.2643 > 0.05 se rechaza Ha

276

ACTIVIDAD 5. DIAGRAMA EN XMIND DE LA PRUEBA DE KRUSKAL WALLIS

277

CONCLUSIÓN DE LA MATERIA

Las conclusiones obtenidas en esta materia pueden servir para tomar decisiones o hacer predicciones. El estudio puede comenzar de nuevo a partir de este momento, en un proceso cíclico que permite conocer cada vez mejor la población y características de estudio. A lo largo del estudio de estadística inferencial que fue la que se manejo logramos comprender que para obtener resultados acerca de distintas poblaciones primero debemos proponernos hipótesis y que eso lo plantearemos siempre y en todo caso, y que de igual manera existen diversos métodos por los cuales podemos obtener resultados estadísticos cuando las poblaciones son diferentes, cuando ciertos elementos influyen en la solución de problemas y que a partir de de los análisis pudimos manejar correlaciones simples como múltiples y hasta logramos comprender las diferencias, ventajas y desventajas que tiene la estadística no paramétrica con la normal. Sin duda alguna aun siendo temas con largos desarrollos se entiende lo que se desea buscar, ya que se plantearon muchas actividades para el aprendizaje de la estadística II.

278

279

TGOM COPYRIGHT

280