Calidad que se acredita internacionalmente
ASIGNATURA
ESTADĂ?STICA
ESTADÍSTICA
VISIÓN Ser una de las 10 mejores universidades privadas del Perú al año 2020, reconocidos por nuestra excelencia académica y vocación de servicio, líderes en formación integral, con perspectiva global; promoviendo la competitividad del país.
MISIÓN Somos una universidad privada, innovadora y comprometida con el desarrollo del Perú, que se dedica a formar personas competentes, íntegras y emprendedoras, con visión internacional; para que se conviertan en ciudadanos responsables e impulsen el desarrollo de sus comunidades, impartiendo experiencias de aprendizaje vivificantes e inspiradoras; y generando una alta valoración mutua entre todos los grupos de interés.
Docente: Claudio Cerrón Landeo Material publicado con fines de estudio Distribución Gratuita Quinta edición Huancayo, 2014
Pág. ¡Exigencia académica para grandes cambios!
1
ESTADÍSTICA
PRESENTACIÓN La estadística tiene su origen en la palabra Estado, pues este era el encargado de realizar la cuantificación y análisis de la riqueza que tenían, los cuales estaban en función a fines económicos y militares, expresados en recursos económicos, infraestructura y sobre los cuáles tomaban decisiones. Actualmente la estadística es una ciencia y ya no es reservada al estado pues está relacionada y aplicada a prácticamente todas las demás ciencias. La razón es evidente, es necesario recolectar información y analizarla y eso es justamente lo que hace la estadística, proporciona técnicas precisas de recolección de datos y proporciona métodos específicos para el análisis de los mismos , su utilidad la entendemos mejor si tenemos en cuenta que los quehaceres y decisiones diarias embargan cierto grado de incertidumbre, esta ciencia trabaja con ella y nos orienta para tomar las decisiones con un determinado grado de confianza, en este sentido la asignatura de Estadística tiene la finalidad de incursionarlos dentro de esta ciencia como herramienta para la toma de decisiones en su desarrollo profesional. La asignatura está dividida en tres Unidades Didácticas: en la Primera Unidad Didáctica ingresaremos a conocer a la Ciencia Estadística tocando temas de Estadística descriptiva como conceptos básicos, organización y presentación de datos y medidas descriptivas. En la Segunda Unidad Didáctica desarrollaremos los temas de Estadística Inferencial empezaremos conociendo los métodos de muestreo para realizar estimación de parámetros y finalizaremos con las pruebas de hipótesis. En la Tercera Unidad Didáctica aplicaremos los Métodos de Pronóstico desarrollando el análisis de regresión y de correlación. En la parte final se hace entrega del manual del programa estadístico SPSS el cuál se desarrollará en las clases de laboratorio pero es necesario que le dediquemos algunas horas adicionales en casa para poder reforzar su aplicación. Del mismo modo se presenta una guía rápida del Excel en comandos estadísticos, sobre todo para la construcción de tableros de frecuencia y su representación, para su posterior análisis e interpretación. Este material llega a sus manos con la intensión de guiarlos en su aprendizaje en esta asignatura, pero así mismo debe ser complementada con la bibliografía propuesta en el silabo del curso.
El Autor
Pág. ¡Exigencia académica para grandes cambios!
2
ESTADÍSTICA
ÍNDICE UNIDAD I
Tema 1: Introducción a la estadística……………………………………………………………….6 1.1.1 DEFINICIÓN…………………………………………………………………………………….6 1.1.2 RAMAS DE LA ESTADÍSTICA……………………………………………………………….6 1.1.3 OBJETIVOS………………………………………………………………………………….....7 1.1.4 CONCEPTOS BÁSICOS………………………………………………………………………8 1.1.4.1 POBLACIÓN………………………………………………………………………………8 1.1.4.2 MUESTRA…………………………………………………………………………………8 1.1.4.3 UNIDAD ELEMENTAL…………………………………………………………………...9 1.1.4.4 PARÁMETROS ESTADÍSTICOS…………………………………………………….…9 1.1.4.5 ESTADÍGRAFO O ESTADÍSTICO…………………………………………………......9 1.1.4.6 DATO……………………………………………………………………………………….9 1.1.4.7 VARIABLE……………………………………………………………………………….10 EJEMPLOS……………………………………………………………………………………….13 1.1.4.8 MÉTODOS DE RECOLECCIÓN DE DATOS………………………………………..15 ACTIVIDAD N°1……………………………………………………………………………………...17 Tema 2: Organización y presentación de datos…………………………………………………..20 1.2.1 Conceptos básicos…………………………………………………………………………..20 1.2.2 Distribución de Frecuencias……………………………………………………………….21 EJEMPLOS………………………………………………………………………………………..….23 1.2.3 Cuadro Estadístico…………………………………………………………………………..27 1.2.4 Gráfico Estadístico…………………………………………………………………………..27 1.2.4.1 Componentes de una gráfica………………………………………………………...28 1.2.4.2 Principales tipos de gráficos…………………………………………………………28 EJEMPLO DIAGRAMA DE PARETO………………………………………………………….37 ACTIVIDAD N°2………………………………………………………………………………………39 Tema 3: Medidas descriptivas………………………………………………………………………………….42 1.3.1 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN…………………………………….42 1.3.1.1 Media aritmética…………………………………………………………………..43 1.3.1.2 Mediana…………………………………………………………………………….45 1.3.1.3 Moda………………………………………………………………………………...48 1.3.1.4 Media Ponderada………………………………………………………………….52 1.3.1.5 Cuantiles (Medidas de localización)…………………………………………...52 ACTIVIDAD N°3……………………………………………………………………………………….57 Medidas de dispersión y de forma…………………………………………………………………...61 1.3.2. MEDIDAS DE DISPERSIÓN………………………………………………………………….61 1.3.2.1 RANGO O RECORRIDO…………………………………………………………...61 1.3.2.2 RECORRIDO SEMI INTERCUANTIL……………………………………………..61 1.3.2.3 DESVIACIÓN MEDIA………………………………………………………………61 1.3.2.4 VARIANZA…………………………………………………………………………..62 1.3.2.5 DESVIACIÓN ESTÁNDAR O TÍPICA…………………………………………….64 1.3.2.6 COEFICIENTE DE VARIABILIDAD……………………………………………...65 1.3.3. MEDIDAS DE ASIMETRÍA……………………………………………………………………67 1.3.4. MEDIDAS DE CURTOSIS……………………………………………………………………69 ACTIVIDAD N°4……………………………………………………………………………………….71 UNIDAD II
Tema 1: Métodos de Muestreo……………………………………………………………………….74 2.1.1 Conceptos Básicos…………………………………………………………………………….74 2.1.2 Muestreo…………………………………………………………………………………………75 2.1.2.1 Ventajas del Muestreo……………………………………………………………..75 2.1.2.2 Criterios para determinar la aceptabilidad de un Método Muestral……....76 2.1.2.3 El proceso de muestreo…………………………………………………………..76 2.1.3 Métodos de Muestreo Probabilísticos……………………………………………………..77 2.1.3.1 Muestreo aleatorio simple………………………………………………………..77 2.1.3.2 Muestreo aleatorio sistemático………………………………………………….77
Pág. ¡Exigencia académica para grandes cambios!
3
ESTADÍSTICA 2.1.3.3 Muestreo aleatorio estratificado………………………………………………..78 2.1.3.4 Muestreo aleatorio por conglomerados………………………………………78 2.1.3.5 Muestreo Polietápico o multietápico………………………………………….79 2.1.4 Métodos de muestreo no probabilísticos……………………………………………….79 2.1.4.1 Muestreo por cuotas…………………………………………………………….79 2.1.4.2 Muestreo por conveniencia…………………………………………………….80 2.1.4.3 Muestreo por juicio……………………………………………………………....80 2.1.4.4 Bola de nieve……………………………………………………………………...80 ACTIVIDAD N°5………………………………………………………………………………………80 Tema 2: Estimación de parámetros………………………………………………………………..81 2.2.1 Conceptos Básicos………………………………………………………………………….81 2.2.2 Intervalo de confianza para una media poblacional…………………………………..84 2.2.2.1 Si se conoce la varianza poblacional…………………………………………..84 2.2.2.2 Si se desconoce la varianza poblacional……………………………………...85 2.2.3 Intervalos de confianza para una proporción poblacional………………………......85 2.2.4. Intervalo de confianza para una Varianza Poblacional………………………………85 EJERCICIOS RESUELTOS………………………………………………………………………..86 2.2.8 Determinación del Tamaño de Muestra………………………………………………….88 EJERCICIOS RESUELTOS………………………………………………………………………..89 EJERCICIOS PARA LA CLASE…………………………………………………………………..90 ACTIVIDAD N°6……………………………………………………………………………………..91 Tema 3: Prueba de Hipótesis………………………………………………………………………95 2.3.1 Conceptos Básicos………………………………………………………………………….95 2.3.2 Hipótesis Nula y Alternativa……………………………………………………………….95 2.3.3 PLANTEAMIENTO DE HIPÓTESIS………………………………………………………..96 2.3.4. PRUEBA DE HIPÓTESIS ESTADÍSTICA………………………………………………...96 2.3.5 TIPOS DE PRUEBAS DE HIPÓTESIS……………………………………………………..96 2.3.6 ERROR TIPO I Y II……………………………………………………………………………96 2.3.7 REGLA DE DECISIÓN……………………………………………………………………….96 2.3.8 PROCEDIMIENTO DE LA PRUEBA DE HIPÓTESIS……………………………………97 2.3.9 PRUEBA DE ASEVERACIÓN PARA LA MEDIA……………………………………….97 2.3.10 PRUEBA DE ASEVERACIÓN PARA LA PROPORCIÓN……………………………97 2.3.11 PRUEBA DE ASEVERACIÓN PARA LA VARIANZA………………………………..97 EJERCICIOS RESUELTOS………………………………………………………………………..98 PROBLEMAS PARA LA CLASE………………………………………………………………..100 ACTIVIDAD N° 7…………………………………………………………………………………...102 UNIDAD III
Tema 1: Análisis de correlación……………………………………………………………………106 3.1.1 DEFINICIÓN…………………………………………………………………………………..106 3.1.2 DIAGRAMA DE DISPERSIÓN……………………………………………………………..106 3.1.3 COEFICIENTE DE CORRELACIÓN LINEAL (r)…………………………………………106 3.1.4 COEFICIENTE DE DETERMINACIÓN (r2)………………………………………………..107 3.1.5 PRUEBA t PARA EL COEFICIENTE DE CORRELACIÓN……………………………..107 Tema 2: Análisis de regresión……………………………………………………………………..108 3.2.1 DEFINICIÓN……………………………………………………………………………….…..108 3.2.2 FORMAS DE REGRESIÓN……………………………………………………………….…108 3.2.3 SUPUESTOS DE LA REGRESIÓN Y CORRELACIÓN……………………………….…108 3.2.4 REGRESIÓN LINEAL SIMPLE………………………………………………………….…..108 3.2.5 REGRESIÓN NO LINEAL SIMPLE…………………………………………………………109 ACTIVIDAD N°8……………………………………………………………………………………..110 ANEXOS……………………………………………………………………………………………..112 Manual Excel………………………………………………………………………………………..113 Manual SPSS………………………………………………………………………………………..161 Modelo de encuestas………………………………………………………………………………198 Tablas estadísticas…………………………………………………………………………………204
Pág. ¡Exigencia académica para grandes cambios!
4
ESTADÍSTICA
UNIDAD DIDÁCTICA I
ESTADÍSTICA DESCRIPTVA En esta primera unidad para poder entender a la Ciencia Estadística empezaremos por una de sus ramas principales como es la Estadística Descriptiva. La Estadística Descriptiva se ocupa, como su nombre lo indica, de describir las características de una muestra o de una población a través de recopilar, organizar, presentar y resumir datos que facilite la interpretación y así extraer conclusiones de su comportamiento. En el Tema 01 iniciamos con conceptos básicos para poder entendernos en un lenguaje común; en el Tema 02 conoceremos los diferentes métodos de organización y presentación de datos mediante tablas de frecuencias y gráficos estadísticos; para el Tema 03 aplicaremos medidas descriptivas que nos permitan resumir un conjunto de datos.
APRENDIZAJES ESPERADOS
Define los conceptos básicos de Estadística. Mide, describe, explora y compara diferentes características de un conjunto de datos. Construye gráficos estadísticos y analiza e interpreta los resultados. Calcula las medidas de tendencia central, de dispersión y de forma y las interpreta.
CONTENIDOS Tema 1: Introducción a la estadística Tema 2: Organización y presentación de datos Tema 3: Medidas descriptivas
Pág. ¡Exigencia académica para grandes cambios!
5
ESTADÍSTICA
TEMA 01 SESIÓN I:
LOGRO:
INFORMACIÓN:
INTRODUCCIÓN A LA ESTADÍSTICA Conocer la diferencia entre Estadística Descriptiva e Inferencial. Comprender las diferencias entre población, muestra y unidad estadística de análisis. Distinguir las variables cuantitativas y cualitativas y sus respectivos niveles de medición. Conocer los métodos de recolección de datos y las características de una encuesta. Definición, Ramas, Objetivos, Conceptos Básicos: Población, Muestra, Parámetro, Estadígrafo, Variables, tipos de variables, Métodos de recolección de datos.
1.1 INTRODUCCIÓN A LA ESTADÍSTICA 1.1.1 DEFINICIÓN El término estadística se deriva de la palabra latina status, que significa estado. Los primeros usos de la estadística tienen que ver con la recopilación de datos y la elaboración de gráficas para describir diversos aspectos de un estado o un país. En 1662, John Graunt considerado como el primer demógrafo publicó información estadística acerca de los nacimientos y los decesos. Al trabajo de Graunt siguieron estudios de tasas de mortalidad y de enfermedad, tamaño de poblaciones, ingresos y tasas de desempleo. En la actualidad los hogares, gobiernos y empresas se apoyan en la estadística para dirigir sus acciones. Para muchas personas, estadística significa descripciones numéricas. Lo anterior puede verificarse fácilmente al escuchar, un domingo cualquiera, a un comentarista de televisión narrar un juego de fútbol. Sin embargo, en términos más precisos, la estadística es el estudio de los fenómenos aleatorios. Uno de los aspectos más importantes en estadística es la posibilidad de obtener conclusiones basadas en los datos observados. Este proceso se conoce como inferencia estadística. Si una conclusión obtenida para un indicador económico importante, una posible concentración de cierto contaminante o si se pretende establecer una relación entre la incidencia de cáncer pulmonar y el fumar, es muy probable que dicha conclusión esté basada en la inferencia estadística. 1.1.2 RAMAS DE LA ESTADÍSTICA La estadística se divide en dos ramas que no son independientes; por el contrario, son complementarias y entre ambas dan la suficiente ilustración sobre una posible realidad futura, con el fin de que quien tenga poder de decisión, tome las medidas necesarias para transformar ese futuro o para mantener las condiciones existentes. En atención a su metodología, por sus procedimientos y alcances bien definidos, la ciencia estadística se clasifica en:
Pág. ¡Exigencia académica para grandes cambios!
6
ESTADÍSTICA 1.1.2.1 ESTADÍSTICA DESCRIPTIVA O DEDUCTIVA:
Son métodos y técnicas de recolección, caracterización, resumen y presentación que permite describir apropiadamente las características de un conjunto de datos. Comprende el uso de gráficos, tablas, diagramas y criterios para el análisis. Existen diversos tipos de gráficos adecuados a los distintos datos que se desean representar.
1.1.2.2 ESTADÍSTICA INFERENCIAL O INDUCTIVA Son métodos y técnicas que hacen posible estimar una o más características de una población o tomar decisiones referentes a la población basados en el resultado de muestras elegidas adecuadamente. Estas conclusiones no tienen que ser totalmente válidas, pueden tener cierto margen de error, por eso se dan con una medida de confiabilidad o probabilidad.
1.1.3 OBJETIVOS Los objetivos de la estadística pueden ser clasificados en tres grandes capítulos: descripción, análisis y predicción. 1.1.3.1 Descripción de grandes colecciones de datos empíricos reduciéndolos a un pequeño número de características que concentra la parte más importante y significativa de la información proporcionada por los datos. La descripción supone que los datos que vienen expresados en su forma natural deben ser clasificados y presentados sistemáticamente en cuadros o tablas como una pequeña reducción de datos, esto se obtiene cuando el comportamiento y características de los datos se expresan por un conjunto de indicadores, medidas de resumen o estadígrafos. La estadística se inicia estudiando el problema, puesto que es un trabajo preliminar de casi todas las investigaciones estadísticas; de este modo tanto como la reducción como la descripción de la información se estudia en la Estadística Descriptiva. Es importante anotar que la descripción estadística de los fenómenos o hechos es el primer aspecto al cual se redujo la ciencia estadística durante mucho tiempo, aplicándose especialmente a los datos demográficos, sociales económicos, etc. 1.1.3.2 Análisis estadístico de datos experimentales y de los fenómenos observados, toda la investigación estadística incluye un problema de análisis, con el objeto de formarse un concepto de la población o universo y adoptar decisiones; en este caso no es necesario
Pág. ¡Exigencia académica para grandes cambios!
7
ESTADÍSTICA observar toda a una población sino que será suficiente elegir una muestra representativa. La preocupación del análisis estadístico es inferir propiedades para una población sobre la base de resultados muestrales conocidos. Aquí se presenta varios problemas que presentan la Estadística, la estimación estadística, el cálculo de probabilidades, las pruebas estadísticas, etc. Éstos son aspectos que corresponde esencialmente a la Inferencia Estadística. Todo análisis debe suponer la elección adecuada de una muestra representativa, la que será estudiada en detalle para obtener conclusiones o resultados, que dentro de ciertos márgenes de aceptación sean válidas a toda la población de la cual fue elegida la muestra. 1.1.3.3 Predicción o comportamiento de los fenómenos en el futuro, lo cual constituye la máxima aspiración práctica de toda ciencia. Este objetivo de predicción y previsión está implícito tanto en la descripción como en el análisis estadístico, puesto que en general interesa orientar la toma de decisiones con vigencia y afecto en el futuro. Naturalmente que las estimaciones y proyecciones dependen del grado de conocimiento del comportamiento del pasado y presente de las variables en estudio. Para concretar estos objetivos, la Estadística se vale por una parte del censo, que recopila datos del todo, analiza la distribución y variación de las características de los elementos que componen una población claramente definida; por otra parte del muestreo, que permite estimar o inferir características de un todo considerando una parte representativa. Basándose en el análisis de experiencias y evaluaciones pasadas y actuales, hace estimaciones de fenómenos y características para un futuro, propone valores esperados. La estadística también se vale de una serie de artificios matemáticos y del cálculo de probabilidades, para definir sobre la validez de supuestos, construir modelos y métodos estadísticos. 1.1.4 CONCEPTOS BÁSICOS 1.1.4.1 POBLACIÓN Es el conjunto mayor o colección completa de todos los elementos (puntajes. personas, mediciones, etc.) que posee al menos una característica común observable, cuyo estudio nos interesa o acerca de los cuales se desea información. La población debe estar perfectamente definida en el tiempo y en el espacio, de modo que ante la presencia de un potencial integrante de la misma, se pueda decidir si forma parte o no de la población bajo estudio. Por lo tanto, al definir una población, se debe cuidar que el conjunto de elementos que la integran quede perfectamente delimitado. La población puede ser según su tamaño de dos tipos: a. Población finita: cuando se tiene un número determinado de elementos. b. Población infinita: cuando el número de elementos es indeterminado, o tan grande que pudiesen considerarse infinitos. Tamaño de la Población: Es el número total de elementos que tiene la población estudiada y se denota con la letra “N” 1.1.4.2 MUESTRA Es un subconjunto de la población a la cual se le efectúa la medición con el fin de estudiar las propiedades de la población de la cual es obtenida. Una muestra debe ser representativa, esto es, guarda las mismas características de la población de donde fue seleccionada y debe ser adecuada en cuanto a la cantidad de elementos que debe tener con respecto a la población. Existen diversos métodos para calcular el tamaño de la muestra y también para seleccionar los elementos que la conforman, pero es importante que sea representativa de la población y sus elementos escogidos al azar para asegurar la objetividad de la investigación. Tamaño de muestra: El número de elementos de la muestra se denota con letra “n”.
Pág. ¡Exigencia académica para grandes cambios!
8
ESTADÍSTICA
DESCRIPCIÓN DEL GRÁFICO: _______________________________________________ _________________________________________________________________________ _________________________________________________________________________
1.1.4.3 UNIDAD ELEMENTAL Es el objeto sobre el cual se hace la medición . También se le conoce como Unidad de Análisis, Unidad Estadística, Caso o Elemento. Por ejemplo en un estudio sobre el nivel académico de los alumnos del nivel primario la unidad estadística es un niño del nivel primario. 1.1.4.4 PARÁMETROS ESTADÍSTICOS Es un número que describe alguna característica de la población o medida de resumen de una población. Se considera como un valor verdadero de la característica estudiada y para determinar su valor es necesario utilizar la información poblacional completa, y por lo tanto la decisión se toman con certidumbre total. 1.1.4.5 ESTADÍGRAFO O ESTADÍSTICO Es un número que describe alguna característica de la muestra o medida de resumen de una muestra y la toma de decisión contiene un grado de incertidumbre.
DESCRIPCIÓN DEL GRÁFICO: _______________________________________________ _________________________________________________________________________ _________________________________________________________________________ 1.1.4.6 DATO Es el valor, respuesta o registro que adquiere una característica o variable asociado a un elemento de la población o muestra, como resultado de la observación, entrevista o recopilación en general. Puede ser un número, una palabra o un símbolo.
Pág. ¡Exigencia académica para grandes cambios!
9
ESTADÍSTICA EJERCICIO Las cadenas de televisión hacen un gran análisis continuamente de la popularidad de sus programas contratando a diversas encuestadoras con el fin de que éstas tomen muestras sobre las preferencias de los telespectadores. En uno de dichos estudios, en una encuesta a 800 televidentes que ven televisión a la hora de mayor audiencia, 320 señalaron que vieron el programa “Yo Soy” el segundo viernes de junio del presente año en la gran final. Del enunciado anterior identifique: población, muestra, unidad elemental. Población
Muestra
Unidad elemental
1.1.4.7 VARIABLE Es una característica estudiada de las unidades estadísticas. Podemos mencionar los siguientes tipos: a. Según la Naturaleza de la Variable a.1 Variables Cualitativas o Estadísticas de Atributos Cuando expresan una cualidad, característica o atributo, sus datos se expresan mediante una palabra, no es numérico. Dichas variables tienen respuestas categóricas. Por ejemplo: estado civil, los colores, lugar de nacimiento, profesiones, actividad económica, causas de accidentes, etc. Estas pueden ser: a.1.1 Variable Nominal Cuando no se puede establecer jerarquía entre los valores de la variable, tales como: ¿Qué marca de bebida gaseosa consume usualmente? Tipo de sangre de las personas. ¿Le gusta las hamburguesas Mc Donald’s? ¿Qué asignatura de especialidad lleva en el presente ciclo? ¿En qué empresa de autobuses interprovincial realiza sus viajes hacia la capital? a.1.2 Variable Ordinal Cuando existe jerarquía entre los valores de la variable, tales como: ¿Cuál es el nivel de instrucción que posee? ¿Está satisfecho con el servicio de parqueo de la municipalidad? ¿Cuál es la calificación que le puede asignar a la última capacitación respecto a la exposición del ponente? a.2 Variables Cuantitativas Cuando el valor de la variable se expresa por una cantidad. El dato o valor puede resultar de la operación de contar o medir. Por ejemplo: edad, número de hijos por familia, ingresos, viviendas por centro poblado, niveles de desempleo, producción, utilidades de empresas, etc. Estas pueden ser: a.2.1 Variable Discreta Cuando el valor de la variable resulta de la operación de contar, su valor está representado sólo por números naturales (enteros positivos) tales como:
Número de hijos por familia Número de accidentes por día
Pág. ¡Exigencia académica para grandes cambios!
10
ESTADÍSTICA
Trabajadores por empresa Población por distritos Número de habitaciones por vivienda
a.2.2 Variable Continua Cuando la variable es susceptible de medirse, es toda variable cuyo valor se obtiene por medición o comparación con una unidad o patrón de medida. Las variables continuas pueden tener cualquier valor dentro de su rango o recorrido, por tanto se expresa por cualquier número real tales como:
Área de parcelas Ingresos monetarios Producción de maíz Peso de los alumnos del ciclo regular Tiempo de servicio de lavado de un automóvil Número de horas trabajadas del personal administrativo en la última semana
NOMINAL
CUALITATIVA O CATEGÓRICA ORDINAL
VARIABLE ESTADÍSTICA DISCRETA CUANTITATIVA CONTINUA b. Según la Escala de Medición El término escala se refiere a los procedimientos que se establecen para determinar la medida de los conceptos subjetivos y en ocasiones abstractos. Una escala es una herramienta de medición, cuando uno asigna un valor numérico a una variable dicho proceso se llama medición. Por ejemplo podemos observar un termómetro y leer la temperatura de 87°C cuando se inicia la ebullición del agua a 3300 m.s.n.m., o examinar una caja de 48 latas de leche evaporada y encontrar que 2 de ellas están chancadas (con alguna deformidad en la lata). Los números 87 y 2 son dichas mediciones. Por lo que cuando se mide una variable, el resultado de dicha medición se puede expresar a través de cuatro escalas o niveles de medición: nominal, ordinal, de intervalo o de razón, las cuáles determinarán los métodos adecuados para la descripción y análisis de datos. b.1 Escala Nominal Si a todas las unidades estadísticas equivalentes respecto de la propiedad o atributo se le asigna un número real que funciona sólo como etiqueta. Se usa para hacer referencia a los datos que sólo pueden clasificarse en categorías o modalidades. Por ejemplo:
Pág. ¡Exigencia académica para grandes cambios!
11
ESTADÍSTICA Propiedades de la escala Nominal No intervienen mediciones, ni escala, en vez de esto solo hay cuentas o conteos. Esta escala es considerada excluyente, es decir que la persona u objeto se incluye solamente en una categoría. No existe un orden específico para esta categoría. No presentan el cero. No se basa en diferencia cuantitativa. Los elementos de una categoría deben de ser equivalentes, idénticos. b.2 Escala Ordinal Si el orden de los números asignados a las unidades estadísticas refleja diferentes grados de propiedad o atributo de estudio. Se pueden ordenar en forma ascendente o descendente, de tal manera que puedan expresar grados de la característica medida. Las variables con escalas ordinales pueden ser ordenadas o clasificadas en relación a la cantidad del atributo poseído. Cada categoría puede ser comparada con otra en relación de “mayor que” o “menor que”. Por ejemplo:
Propiedades de la escala Ordinal
Las observaciones o elementos se les ordena en rangos o categorías diferentes. Cada categoría o rango mantiene una relación entre sí, estas relaciones se expresan en términos algebraicos de desigualdades (mayor que o menor que). No es posible definir unidades de mediciones iguales en todos los puntos de la escala. Las categorías son mayores o menores que otras categorías, es decir, que existe una clasificación de mayor a menor (jerarquía). Las categorías son mutuamente excluyentes y exhaustivas. No presentan el cero.
b.3 Escala de Intervalo Si los números asignados a las unidades estadísticas no sólo permiten ordenarlos sino que además las diferencias iguales entre estos valores indican diferencias iguales en las cuantías de las propiedades a medir. En esta escala el cero es relativo, es decir, no indica la ausencia de la característica medida. Por ejemplo: Valoración del grado de satisfacción de un cliente bancario con el servicio que presta la entidad de la que es cliente, en una escala de “1” (nada satisfecho) a “10” (muy satisfecho). 1 2 3 4 5 6 7 8 9 10 Propiedades de la escala de Intervalo:
Esta escala implica la cuantificación de los datos. En estás medidas se utilizan unidades constantes de medición (capacidad, peso, grados Fahrenheit o Centígrados) los cuales producen intervalos iguales entre puntos de la escala. Proporcionan números que manifiestan diferencias palpables entre individuos, objetos o cosas. En esta escala de intervalos el punto cero (0) y la unidad de medida es arbitrario. Se pueden aplicar todas las medidas estadísticas más conocidas, con excepción del coeficiente de variación.
Pág. ¡Exigencia académica para grandes cambios!
12
ESTADÍSTICA
Son mutuamente exclusivas y exhaustivas.
b.4 Escala de Razón Si los cocientes o razones de los números asignados a las unidades estadísticas reflejan los cocientes de las cuantías de las propiedades que se miden. En esta escala el cero indica la ausencia de característica de la medida. También se le conoce como escala de proporción o cociente. Por ejemplo: ¿Cuál es el monto que Ud. ha gastado en la celebración del último día del padre?
Propiedades de la escala a razón:
La distancia entre los números es un tamaño conocido y constante. Los datos tienen un punto cero significativo. Puede utilizarse cualquier prueba de tipo estadístico, incluyendo el coeficiente de variación. Permite hacer comparaciones entre los números verdaderos con un cero aritmético siendo arbitrario únicamente la unidad de medida.
EJEMPLO La Secretaría Académica de una universidad está interesada en realizar un estudio relacionado con las prácticas de recuperación de los alumnos de pregrado. La universidad cuenta con cinco facultades y un total de 3 500 alumnos. Se quiere determinar, por cada carrera, cuáles son los principales motivos que ocasionan la inasistencia de los alumnos a las evaluaciones programadas. Se piensa que entre otros motivos, los alumnos desconocen el reglamento. Para obtener la información deseada se toma una muestra aleatoria de 200 alumnos con al menos una inasistencia en las evaluaciones. A continuación se muestra los resultados obtenidos de a partir de la muestra: el 25% estudia en la facultad de ciencias administrativas, 70 de los entrevistados desconoce el reglamento, la nota media es de 13, 75 a) Defina la población y la muestra Población: Los 3 500 alumnos de la universidad Muestra: 200 alumnos de la universidad b) Defina las variables en estudio, indicando el tipo y su escala Variable Facultad a la que pertenece el alumno Conocimiento o desconocimiento del reglamento Nota del entrevistado
Tipo Cualitativa Cualitativa Cuantitativa
Escala Nominal Nominal Razón
c) Identifique los estadístico y parámetros e indique su valor Estadístico Proporción de entrevistados que estudian en la facultad de ciencias administrativas Proporción de entrevistados que desconocen el reglamento de la universidad Nota promedio del entrevistado
Valor 0,25
Parámetro No existe
Valor ninguno
0,35
No existe
ninguno
13,75
No existe
ninguno
EJEMPLO El diario nacional “La Voz” tiene 600 empleados, de los cuales el 35% son mujeres. Se realiza un estudio a 100 de estos empleados. Se encontró que la edad promedio en el grupo analizado es de 35 años, que el 25% han estudiado en provincias, que 60 de estos trabajadores tienen a lo más 4 hijos y que 15 trabajadores ganan más de $4000.
Pág. ¡Exigencia académica para grandes cambios!
13
ESTADÍSTICA a. Identifique la población, muestra y unidad elemental. Población: Muestra: Unidad de elemental o unidad de análisis:
Los 600 empleados del diario “La Voz” 100 empleados seleccionados 01 empleado
b. ¿Qué variables se estudian indique además el tipo y escala de medición? Variable
c.
Edad
Tipo Cuantitativo discreto (años cumplidos)
Escala Razón
Lugar de estudio Número de hijos por empleado Sueldo
Cualitativo nominal Cuantitativo discreto Cuantitativo continuo
Nominal Razón Razón
¿Cuáles son los estadísticos y parámetros? Estadístico 35 años de edad en promedio 60 trabajadores con 4 hijos máximo 15 rabajadores que ganan más de 4 mil dólares
d.
Parámetro 35% son mujeres 25% han estudiado en provincias
Cada uno de los siguientes casos determine usted si el resultado es: parámetro, observación, variable, dato, estadístico o resultado de una inferencia estadística. El gerente del diario nacional “La Voz” observó que el Sr. Juan Tenorio, uno de los 600 empleados elegidos al azar, es casado, tiene 3 hijos, cuenta con grado de instrucción superior y su ingreso mensual es de $1 500: ESTADÍSTICO
Grado de instrucción Variable
Superior dato
60 de estos trabajadores tienen a lo más 4 hijos y que 15 trabajadores ganan más de $4000: ESTADÍSTICO
EJERCICIO La gerencia de relaciones públicas de la empresa distribuidora de agua potable ha realizado una campaña para promover el ahorro del agua potable de los hogares de Lima Metropolitana y mejorar así la imagen de la empresa. Para determinar si la campaña ha dado resultado, se realizó una encuesta a una muestra de hogares de Lima Metropolitana obteniéndose la siguiente información: El consumo promedio mensual de agua potable por hogar es de 12,5 m3 El 20% de los encuestados opina que la calidad de servicio que brinda la empresa distribuidora de agua potable es deficiente. El número promedio de personas por vivienda en Lima Metropolitana es de 4,6 Del enunciado anterior identifique: población, muestra, unidad elemental y tres variables en estudio con su respectivo tipo y escala.
Población Muestra Unidad elemental de análisis
Pág. ¡Exigencia académica para grandes cambios!
14
ESTADÍSTICA Estadístico Parámetro
Variable
Tipo
Escala
EJERCICIO Una compañía produce arandelas que se supone tengan un diámetro promedio de 2,5 centímetros, según requerido por el comprador. Un equipo de ingenieros examina la producción rutinariamente para velar que se cumpla con las especificaciones. Si encuentra que las arandelas no cumplen con las especificaciones establecidas, las máquinas que las producen son ajustadas. Ellos seleccionan un grupo de 100 arandelas del lote producido en la fábrica por máquina y calculan el diámetro promedio. Del enunciado anterior identifique: población, muestra, unidad elemental, establezca un estadístico y un parámetro y tres variables en estudio con su respectivo tipo y escala.
Población Muestra Unidad elemental de análisis Estadístico Parámetro
Variable
Tipo
Escala
1.1.4.8 MÉTODOS DE RECOLECCIÓN DE DATOS La elección del método depende de la estrategia de recopilación de datos, el tipo de variable, la precisión necesaria, el punto de recopilación y la formación del encuestador. Los vínculos entre una variable, su origen y los métodos prácticos para su recopilación pueden ayudar a escoger métodos apropiados. Los principales métodos de recopilación de datos son:
Registros: los registros y licencias son particularmente valiosos para los censos completos, pero se limitan a variables que cambian lentamente, como el número de embarcaciones pesqueras y sus características. Cuestionarios: formularios que los encuestados devuelven cumplimentados. Un método poco costoso que resulta útil cuando los índices de alfabetización son altos y los encuestados colaboran. Entrevistas: formularios que se cumplimentan a lo largo de una entrevista con el encuestado. Más caros que los cuestionarios, pero mejores para preguntas más complejas, y cuando se dan unos índices de alfabetización bajos o se encuentra menos colaboración.
Pág. ¡Exigencia académica para grandes cambios!
15
ESTADÍSTICA
Observaciones directas: la realización de mediciones directas es el método más preciso para todas las variables, como las capturas, pero a menudo resulta caro. Muchos métodos, como los programas de observación, se limitan a la pesca industrial. 1.1.4.8.1 LA ENCUESTA De los métodos expuestos el más utilizado es la aplicación de cuestionarios o encuestas las cuáles se pueden realizar sobre el total o una parte de la población. Exceptuando los estudios que realiza el Instituto Nacional de Estadística e Informática INEI en los Censos y que abarcan a toda la población, diversos son los motivos que aconsejan tomar muestras.
Cuando la población es muy grande. Por motivos económicos. Por falta de personal adecuado. Por motivo de calidad de los resultados. Por mayor rapidez en recoger los datos y presentar los resultados.
Pasos más importantes para preparar una encuesta: 1. Definir el objeto de la encuesta, formulando con precisión los objetivos a conseguir, desmenuzando el problema, eliminando lo superfluo y centrando el contenido de la encuesta. 2. Formulación del cuestionario 3. Trabajo de campo, consistente en la obtención de los datos. Para ello será preciso seleccionar a los entrevistadores, formarlos y distribuirles el trabajo a realizar de forma homogénea. 4. Procesar codificar y tabular los resultados de la encuesta, que serán presentados en el informe y para posteriores análisis. 1.1.4.8.2 TIPOS DE ENCUESTAS Las encuestas las podemos clasificar atendiendo a diversos criterios.
CRITERIO
Por la forma que adopta el cuestionario Por proporción de la población encuestada Por la naturaleza de la investigación estadística Atendiendo al sistema de recogida
Por el carácter de la investigación
TIPO
Unitaria o personal Lista Censo Encuesta Sobre hechos Sobre opiniones Por entrevista Forma mixta: Entregadas por correo, recogidas por entrevistadores Entregadas por entrevistadores, recogidas por correo Por correo Por teléfono Estructurales Coyunturales
1.1.4.8.3 DISEÑO DE UN CUESTIONARIO El cuestionario es un conjunto de preguntas sobre los hechos o aspectos que interesan en una investigación y que son contestadas por los encuestados. Se trata de un instrumento fundamental para la obtención de datos. Siendo el objetivo del diseño de una encuesta el minimizar los errores de no muestreo que pueden ocurrir, en ese sentido, los cuestionarios deben reunir las siguientes características: 1. Operativos: Fáciles de manejar, utilizarse como instrumento de recolección de datos previendo en su estructura la facilidad para el vaciado o salida de la información. Fáciles de procesar y tabular.
Pág. ¡Exigencia académica para grandes cambios!
16
ESTADÍSTICA 2. Fidedignos: Que sea confiable, que permita la recolección real de los objetivos y que sean fáciles de ser depurados. 3. Válidos: Que sea conciso, claro, firme, consistente, que no se preste a ambigüedades. Preguntas claras, breves, concretas y lógicas. Para diseñar un cuestionario se deben considerar tres aspectos: 1. El tipo de Preguntas y el orden en que deben agruparse. 2. La formulación de las preguntas de acuerdo a los objetivos, redactándolas gramaticalmente 3. La organización del material del cuestionario, poniéndose en el lugar del entrevistado 1.1.4.8.4 TIPO DE PREGUNTAS EN UN CUESTIONARIO 1. Dicotómicas: Es la más sencilla y se utiliza como filtro. Sólo admite como respuesta: Si o No. 2. Selección Múltiple: Permite elegir varias respuestas dentro de una serie de respuestas. 3. Abiertas: Deja en libertad al entrevistado de responder lo que considere conveniente. 4. Cerradas: En este el entrevistado solo puede elegir una respuesta de una serie de respuestas. Las preguntas también las podemos clasificar en función de su contenido, destacando: Preguntas de identificación: Edad, sexo, profesión, nacionalidad…. Preguntas de hechos: referidas a acontecimientos concretos ¿tiene Vd. coche? Preguntas de acción: referidas a actividades de los encuestados. ¿Utilizó el avión el año pasado? Preguntas de información: Para conocer los conocimientos del encuestado. ¿Sabe lo que es el SIDA? Preguntas de intención: Para conocer la intención del encuestado. ¿Va a cambiar de coche en los próximos 3 meses? Preguntas de opinión: ¿Que harás cuando finalices tus estudios? Otra clasificación de las preguntas es atendiendo a su función en el cuestionario, destacando: Preguntas filtro: Son aquellas que se realizan previamente a otras para eliminar a los que no les afecte. ¿Ud. Fuma? ¿Rubio o Negro? Preguntas trampa o de control: Para descubrir la intención con que se responde. Se incluyen respuestas con lo que se pregunta para ver si el entrevistado cae en ellas. Preguntas muelle, colchón o amortiguadoras: son preguntas sobre temas peligrosos o inconvenientes, formuladas suavemente. Preguntas en batería: Conjunto de preguntas encadenadas unas con otras complementándose. Preguntas embudo: Se empieza por cuestiones generales, hasta llegar a los puntos más esenciales. 1.1.4.8.5 MODELO DE CUESTIONARIO En el anexo N°3. ACTIVIDAD N°1 Presente de manera formal lo siguiente: PRIMERA PARTE: EJERCICIOS 1. Mediante un organizador de conocimientos resuma el contenido tratado en el Tema 01. 2. Los clientes que se suscriben al diario local “ La Voz” deben llenar un formato con información personal. Algunos de los datos solicitados se presentan a continuación. Clasifique cada una de ellos indicando el tipo de variable y su respectiva escala de medición.
Pág. ¡Exigencia académica para grandes cambios!
17
ESTADÍSTICA Profesión
Centro de labores
Dirección
Estado civil
Nacionalidad
Número de hijos
Fecha de nacimiento
Edad
Ingreso mensual familiar
Grado de instrucción
Número de teléfono
Número de DNI
3. Clasifique las siguientes variables en cualitativas o cuantitativas (continua o discreta):
a. b. c. d. e. f.
Tiempo de servicio de los empleados de un medio de comunicación. Nivel educacional y religión de los empleados de un medio de comunicación. Lugar de nacimiento de una persona de los empleados de un medio de comunicación. Orden de llegada de los reporteros a una entrevista. Número de diarios defectuosos que salen de la línea de producción del diario “Informa”. Ingreso mensual de los trabajadores de una empresa publicitaria.
4. Se quiere hacer un estudio sobre las características más importantes que debe la página Web del diario local.
a. Defina el objetivo del estudio, la población objetivo, la unidad elemental, la unidad de muestreo y el marco muestral del estudio.
b. Elabore un cuestionario de 05 preguntas que podría ser utilizado en el estudio, precisando para cada una de ellas el tipo de variable y escala de medición. 5. Analistas y Consultores realizó un estudio de mercado en el distrito de El Tambo con la finalidad de analizar las posibilidades de instalar cabinas de Internet en la zona. Seleccionó una muestra de 200 hogares, encuestándoles sobre lo siguiente:
a. b. c. d.
Ingreso familiar Número de miembros de la familia Grado de instrucción del jefe de la familia Si tienen Internet en el hogar.
Del estudio de la muestra se encontró que el promedio del ingreso familiar es de 2500 soles, el 30 % de hogares tienen Internet. Complete lo siguiente: Población Muestra Unidad elemental de análisis Estadístico Parámetro
Variable
Tipo
Escala
6. Un diario local desea analizar qué tanta gente que adquiere el diario, estaría interesada por que se ofrezcan recetas de comidas típicas de diferentes regiones del país. Para ello de un total de 2000 personas suscritas al diario, de las cuales el 70% son hombres. Se selecciona aleatoriamente a 300 de las personas suscritas y se les consulta al respecto. Se encontró que al
Pág. ¡Exigencia académica para grandes cambios!
18
ESTADÍSTICA 60% tiene mucho interés en recetas de comida típica, 5 personas tienen su restaurante, la edad promedio de las personas entrevistadas es de 30 años, 10 de ellas proceden de la Selva. Complete lo siguiente: Población Muestra Unidad elemental de análisis Estadístico Parámetro
Variable
Tipo
Escala
SEGUNDA PARTE: PROPUESTA DE INVESTIGACIÓN Presente en una hoja su propuesta de investigación mencionando de acuerdo a lo explicado: a. Fundamento b. Planteamiento c. Título d. Objetivos: 01 general y 03 específicos.
Pág. ¡Exigencia académica para grandes cambios!
19
ESTADÍSTICA
TEMA 02 SESIÓN II:
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
LOGRO:
Construir una tabla de frecuencias a partir de una serie de datos. Organizar y representar una serie de datos en distintos tipos de gráficos. Interpretar los tableros de frecuencia y sus respectivos gráficos.
Conceptos básicos, Distribución de frecuencias, Cuadros y Gráficos estadísticos.
INFORMACIÓN:
1.2 ORGANIZACIÓN Y PRESENTACIÓN DE DATOS La siguiente fase a la recolección de datos es la crítica de campo, lo que significa realizar la validación y consistencia de los datos obtenidos durante el trabajo de campo, con la finalidad que en la fase de Organización y Clasificación de los Datos sea consistente y veraz los datos a procesarse, analizarse y con la cual se va tomar decisiones. 1.2.1 CONCEPTOS BÁSICOS Para iniciar la organización de datos definiremos algunos conceptos: 1.2.1.1 Clase Es una división de la variable. Se denota como subíndice con la letra “i” y el número total de clases con “m”. 1.2.1.2 Frecuencia Es las veces que se repite una clase de la variable. Éstas son: Simples y Acumuladas a. Frecuencia Simple: Es aquella frecuencia que sólo correspondes a una clase de la variable entre ellas tenemos: a.1 Frecuencia Absoluta Simple La frecuencia absoluta simple de la clase ci es el número fi, de observaciones que presentan una modalidad perteneciente a esa clase. m
Además se cumple que:
f i 1
i
n
a.2 Frecuencia Relativa Simple Frecuencia Relativa Simple de la clase ci es el cociente hi, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir:
hi
fi n
Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci. También m
cumple:
h i 1
i
1
Pág. ¡Exigencia académica para grandes cambios!
20
ESTADÍSTICA a.3 Frecuencia Porcentual Simple Frecuencia Porcentual Simple de la clase ci es el producto de pi, entre las frecuencias relativas de dicha clase por 100, es decir
pi hi *100 m
Cumple lo siguiente:
p i 1
i
100
b. Frecuencias Acumuladas: Aquellas frecuencias que se obtienen por la suma de dos o más clases de la variable b.1 Frecuencia Absoluta Acumulada Fi, se calcula sobre variables cuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci: i
Fi f1 f 2 .... f i f k
k 1 b.2 Frecuencia Relativa Acumulada Hi, se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir:
Hi
i Fi h1 h2 ... hi hk n k 1
b.3 Frecuencia Porcentual Acumulada Pi, se calcula sobre variables cuantitativas, siendo el tanto por ciento de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir : i
Pi H i *100 p1 p2 ... pi pk k 1
1.2.2 Distribución de Frecuencias Llamaremos distribución de frecuencias o tabla de frecuencias al arreglo de filas y columnas que contiene al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística sirve para clasificar y ordenar los datos estadísticos. 1.2.2.1 Tablas Univariantes o unidimensionales Se denomina así a las tablas de frecuencias que presentan información de una sola variable. Sus formas generales son las siguientes: a. Variable cualitativa CLASE
fi
hi
pi
X1 X2 .. . Xm Total
f1 f2 . . fm N
h1=f1/n h2=f2/n . . hm =fm/n 1
p1 =h1*100 p2 =h2*100 . . pm=hm*100 100
b. Variable cuantitativa b.1 Cuantitativa Discreta Si los datos son discretos y no hay mucha variabilidad se presentarán directamente cada valor de la variable y sus respectivas frecuencias. El procedimiento más simple es listar los n datos en forma ascendente y luego elaborar la tabla de distribución de frecuencias indicando para cada valor de la variable su respectiva frecuencia con la que aparece en la serie.
Pág. ¡Exigencia académica para grandes cambios!
21
ESTADÍSTICA
CLASE X1 X2 X3 . Xm Total
fi f1 f2 f3 . . fm N
Fi F 1 = f1 F 2 = F 1 + f2 F3= F2 + f3
Fm = n
hi h1=f1/n h2=f2/n h3=f3/n . . hm=fm/n 1
Hi H1 = h1 H2 = H1 + h2 H3= H2 + h3
Hm = 1
pi p1 p2 p3 . . Pm 100
Pi P1 = p1 P2 = P1 + p2 P3= P2 + p3
Pm = 100
b.2 Cuantitativa Continua Para agrupar n datos de una muestra, los pasos son los siguientes: 1. Determine el rango R: R = Xmáx - Xmín 2. Determine el número de intervalos k: Tome alguna de las siguiente recomendaciones: El valor k debe ser mayor que 5 y no mayor que 20. Regla de Sturges: k = 1 + 3,322 log n. Regla de la raíz cuadrada: k n . Regla de la potencia de 2: k es el menor valor entero tal que 2k > n. Siempre es un número entero. Si la estimación tiene decimales, se toma el entero más próximo. -
3. Calcule el ancho o amplitud de intervalo w: w=R/k Se redondea al número inmediato superior de acuerdo a la cantidad de decimales que tienen los datos o según la precisión con que se desea trabajar. Puede haber intervalos con distinta amplitud. Puede haber intervalos con amplitud indefinida (intervalos abiertos). 4. Determine los límites de cada intervalo.
Partiendo del dato de menor valor Xmin se determinan cada uno de los límites de intervalos sumando la amplitud de clase a cada valor obtenido. Si los datos con cuantitativos continuos, el límite superior de un intervalo es el límite inferior del siguiente intervalo. Se considera que el intervalo es abierto en el límite inferior y cerrado en el límite superior, con excepción en el primer intervalo en el que los dos límites son cerrados. Si los datos son cuantitativos discretos se cumple el punto anterior, pero también se puede tomar todos los límites de intervalos cerrados si el valor del límite superior de un intervalo es una unidad menor que el límite inferior del siguiente intervalo.
5. Calcule la marca de clase o centro de clase X: Punto medio de cada clase. Es la semisuma de los límites de cada clase. Representa a todos los datos que están contenidos en una clase. 6. Construya la tabla de distribución de frecuencias realizando la agrupación y conteo de los datos según la clase a la que corresponda.
Pág. ¡Exigencia académica para grandes cambios!
22
ESTADÍSTICA [yi-1
– yi >
xi X1= Mín + Mín+a Mín – Mín +a 2 X2= Mín +a+ Mín+2a Mín+a – Mín+2a 2 X3= Mín +2a+ Mín+3a Mín+2a – Mín+3a 2 . . . . Xm= Mín +ka+ Máx Mín+ka – Máx 2 Total
fi
Fi
hi
Hi
pi
Pi
f1
F1 = f1
h1=f1/n
H 1 = h1
p1
P1 = p1
p2
P2 = p1 + p2
f2
F2 = f1 + f2 h2=f2/n H2 = h1 + h2
f3
F3
h3=f3/n
H3
p3
P3
. .
. .
. .
Hm = 1
pm
Pm = 100
. .
.
. .
fm
Fm = n
hm
.
n
1
100
Ejemplo: Los datos en el cuadro Interrupciones corresponden al número de interrupciones semanales en el sistema de red de una prestigiosa universidad registrado el último año. La tabla de distribución de frecuencias para estos datos se muestra continuación.
INTERRUPCIONES 3 0 1 2 2 5
4
0
0
0
0
0
0
2
0
3
0
1
0
2
1
0
2
1
0
2
0
3
0
1
1
1
3
3
0
0
1
2
2
1
1
0
0
0
1
4
1
0
1
1
3
1
Luego de identificar los valores de la variable “Número de interrupciones” se ha realizado el conteo de cada uno de dichos valores. Posteriormente se ha calculado la frecuencia relativa hi dividiendo cada fi entre n y finalmente multiplicando este valor por 100 para obtener el pi%. El tablero de distribución de frecuencias obtenido es:
Interrupciones
f
hi
pi%
0
20
0.3846
38.46
1
15
0.2885
28.85
2
8
0.1538
15.38
3
6
0.1154
11.54
4
2
0.0385
3.85
5
1
0.0192
1.92
Total
52
1
100
De donde podemos interpretar que es usual que se produzcan tres o menos interrupciones por semana en el sistema de red de dicha universidad. Ejemplo: El jefe de la Oficina de Rentas de una Municipalidad ha realizado un estudio sobre los impuestos que pagan los vecinos del distrito. La tabla en Excel muestra los pagos de impuestos, en nuevos soles de 48 viviendas elegidas al azar en el primer trimestre del año 2014. 145,1 151,0 159,0 195,6
216,3 225,9 227,1 231,2
252,5 257,1 259,2 262,5
303,6 305,8 315,4 315,5
196,9 202,6 204,9 206,1
234,8 238,4 239,9 241,1
265,2 271,0 286,7 288,1
317,2 320,2 324,8 331,1
206,5 208,0 208,0 209,3
242,9 244,0 247,7 249,5
289,1 291,0 291,9 294,5
331,7 344,6 346,7 351,1
Pág. ¡Exigencia académica para grandes cambios!
23
ESTADÍSTICA La tabla de frecuencias para la variable pago por impuestos municipales primer trimestre 2014 sería: Máximo
351,1
Mínimo
145,1
Rango
206
Cantidad de datos (n)
48
k (por regla de Sturges)
6,585 08 7
k (entero) w (Amplitud) N°. de decimales de los datos datos w (redondeada)
29,42 86 1 29,5
A continuación la tabla de distribución de frecuencias:
Distribución de frecuencias del pago de impuestos municipales del año 2013 Pago de impuestos
[145,1 ]174,6 ]204,1 ]233,6 ]263,1 ]292,6 ]322,1
; ; ; ; ; ; ;
174,6] 204,1] 233,6] 263,1] 292,6] 322,1] 351,6]
Total
Marca de clase
159,8 5 189,3 5 218,8 5 248,3 5 277,8 5 307,3 5 336,8 5
fi 3 3 10 12 7 7 6 48
hi 0,0625 0,0625 0,2084 0,2500 0,1458 0,1458 0,1250
Fi 3 6 16 28 35 42 48
Hi 0,0625 0,1250 0,3334 0,5834 0,7292 0,8750 1,0000
De donde podemos interpretar que:
f2 = 3
En tres viviendas pagaron más de 174,60 nuevos soles y hasta de 204,10 nuevos soles
F2 = 6
En seis viviendas pagaron hasta 204,10 nuevos soles
h3 = 0,2084
El 20,84% de las viviendas pagaron más de 204,10 nuevos soles y hasta 233,6 nuevos soles
H3 = 0,3334
El 33,34% de las viviendas pagaron hasta 233,60 nuevos soles
Ejercicio A continuación, se muestra el tiempo de servicio, en meses, de los trabajadores del área de servicios de una gran empresa. Usando la regla de Sturges construya la tabla de distribución de frecuencias. Puedes utilizar el Excel y seguir las indicaciones. 10 16 21 21 23
24 25 31 31 33
38 39 39 40 40
40 40 40 43 43
43 43 43 44 44
44 46 46 47 48
51 51 52 53 53
53 53 53 54 54
55 55 55 55 55
57 57 58 62 65
Pág. ¡Exigencia académica para grandes cambios!
24
ESTADÍSTICA Solución Cálculo de los límites de los intervalos
Máximo Mínimo Rango Cantidad de datos (n) k (por regla de Sturges) k (entero) w (Amplitud) N°. de decimales de los datos w (redondeada)
Cálculo de las frecuencias • Seleccione el rango en el cual aparecerán las frecuencias respectivas. • Haga clic en el icono de Insertar función, seleccione Frecuencia y de Aceptar. • En la ventana de Frecuencia, ingrese en Datos el rango de los datos que se desea contar. • En Grupos, ingrese el rango de celdas de los límites superiores de los intervalos. • •
Manteniendo presionado Ctrl + Shift, presione Enter, con lo cual aparecerán las frecuencias absolutas. Calcule las demás frecuencias y las marcas de clase.
Distribución del tiempo de servicio de los trabajadores de la empresa Óptima Tiempo de servicio
Marca de clase
fi
hi
Fi
Hi
Interprete:
1.2.2.2 Tablas bivariantes o bidimensionales Se denominan así a las tablas que presentan información de dos variables en forma conjunta. Sus formas generales son las siguientes: Tablas bivariantes de frecuencias absolutas
Pág. ¡Exigencia académica para grandes cambios!
25
ESTADÍSTICA [yi-1 – yi> [y1 – y2> [y2 – y3> [y3 – y4> [y4 – y5> [xi-1 – xi> [x1
– x2>
[x2
– x3>
[x3
– x4>
[xm-1
….….. ……..
[yn-1 – yn>
fi.
f11
f12
f13
f14
…
…
f1n
f1.
f21
f22
f23
f24
…
…
f2n
f2.
f31
f32
f33
f34
…
…
f3n
f3.
… … – xm>
…. ….
…. ….
…. ….
…. ….
…
… …
…. ….
… …
fm1
fm2
fm3
fm4
…
…
fmn
fm.
f.j
f.1
f.2
f.3
f.4
…
…
f.n
n
De igual manera se puede construir tablas bivariantes para frecuencias relativas o porcentuales de acuerdo a las necesidades de presentación de información. Ejemplo: Distribución de individuos por género musical y grado* de identificación del candidato. Tabla de contingencia Identifica al candidato Género musical
Identifica al candidato
Plenamente
Medianamente
No identifica
Total
Recuento % de Identifica al candidato % de Género musical % del total Recuento % de Identifica al candidato % de Género musical % del total Recuento % de Identifica al candidato % de Género musical % del total Recuento % de Identifica al candidato % de Género musical % del total
Género musical Reggaeton Vals Cumbia 149 97 55
Total 301
49.5%
32.2%
18.3%
100.0%
84.2% 35.1% 12
63.0% 22.8% 30
58.5% 12.9% 35
70.8% 70.8% 77
15.6%
39.0%
45.5%
100.0%
6.8% 2.8% 16
19.5% 7.1% 27
37.2% 8.2% 4
18.1% 18.1% 47
34.0%
57.4%
8.5%
100.0%
9.0% 3.8% 177
17.5% 6.4% 154
4.3% .9% 94
11.1% 11.1% 425
41.6%
36.2%
22.1%
100.0%
100.0% 41.6%
100.0% 36.2%
100.0% 22.1%
100.0% 100.0%
Los datos también pueden ser representados en barras apiladas de porcentajes donde la cantidad para cada valor de la variable elegida para el eje horizontal representa el total parcial (o el 100%) y las cantidades (o los porcentajes) de la segunda variable van a dar lugar a dicha cantidad (o el 100%).
Pág. ¡Exigencia académica para grandes cambios!
26
ESTADÍSTICA Distribución de individuos por género musical y grado de identificación
Distribución de individuos según identificación de un candidato por género musical 100% 80%
9% 7%
4%
50%
37%
40%
18% 19%
6% 7%
30%
60% 40%
4% 3%
84% 63%
20%
20% 59%
35%
1% 8%
23%
10%
13%
0%
0%
Reggaeton Plenamente
Vals
Cumbia
Medianamente
Reggaeton Plenamente
Vals
Medianamente
Cumbia No identifica
1.2.3. Cuadro Estadístico: Se utiliza para presentar la información estadística en forma ordenada y de fácil lectura para cualquier usuario, se presenta en informes finales y tiene las siguientes partes: 1.2.3.1 Componentes de un cuadro: Una gráfica, cuadro o una tabla, debe constar de: Título adecuado: Claro y conciso, que responda a las preguntas: ¿Qué relaciona?, ¿cómo?, ¿cuándo?, y ¿dónde se hicieron las observaciones?. El cuerpo: o cuadro en sí, donde debe considerar el o los tipos de variables a relacionar, el público a quien va dirigido y presentarse las frecuencias que sean más necesarias. Notas Explicativas: En ella se presentan aclaraciones respecto a la información que se está presentando. Este componente es opcional. Fuente: Corresponde al área de la empresa o institución responsable de la elaboración de la información. Una tabla de frecuencias o cuadro estadístico debe presentar los siguientes elementos básicos:
1.2.4 Gráfico Estadístico Una gráfica o diagrama estadístico es un dibujo complementario a una tabla o cuadro, que permite observar las tendencias de un fenómeno en estudio y facilita el análisis estadístico de las variables ahí relacionadas.
Pág. ¡Exigencia académica para grandes cambios!
27
ESTADÍSTICA 1.2.4.1 Componentes de una gráfica: Una gráfica, cuadro o una tabla, debe constar de: Título adecuado: Claro y conciso, que responda a las preguntas: ¿Qué relaciona?, ¿cómo?, ¿cuándo?, y ¿dónde se hicieron las observaciones? El cuerpo: Es el gráfico en sí, cuya elección debe considerar el o los tipos de variables a relacionar, el público a quien va dirigido y el diseño artístico del gráfico. Fuente: Corresponde al área de la empresa o institución responsable de la elaboración de la información
1.2.4.2 Principales tipos de gráficos Existe una gran cantidad de gráficos para la representación de datos estadísticos, entre los principales tenemos: a. Gráfico de Barras: El gráfico de barras, como su nombre lo indica, está constituido por barras rectangulares de igual ancho, conservando la misma distancia de separación entre sí. Se utiliza básicamente para mostrar y comparar frecuencias de variables cualitativas o comportamientos en el tiempo, cuando el número de ítems es reducido. La forma de elaborar los mismos es la siguiente: se utiliza un sistema de coordenadas rectangulares y se llevan al eje de las “x” los valores que toma la variable en estudio y en el eje de las “y” se colocan las frecuencias de cada barra. Luego se construyen los rectángulos, tomando como base al eje de las abscisas, cuya altura será igual a cada una de las diferentes frecuencias que presentan las variables en estudio. La magnitud con que viene expresada la variable se observa en la longitud de las barras (rectángulos). Es importante destacar que solamente la longitud de las barras y no su anchura es lo que denota la diferencia de magnitud entre los valores de la variable. Todas las barras tienen que tener una anchura igual, separadas entre sí, preferiblemente por una longitud igual a la mitad del ancho de estas o distancias iguales entre barras. Es recomendable, que las barras no sean ni excesivamente cortas y anchas, ni demasiado largas y angostas, esto es con el objeto de dar una visión objetiva de la investigación en estudio. Las barras se pueden graficar tanto verticalmente como horizontalmente. Se pueden elaborar barras compuestas y barras agrupadas Se clasifican por: Barras Simples: Compara valores entre categorías de una variable Barras Dobles: Compara valores entre categorías de dos variables Barras Múltiples Compara valores entre categorías de dos variables
Pág. ¡Exigencia académica para grandes cambios!
28
ESTADÍSTICA Barras Verticales: Las categorías de la variable deben ubicarse en el eje X Barras Horizontales: Las categorías de la variable deben ubicarse en el eje Y Barras Apiladas: Compara entre categorías el aporte de cada valor en el total
b. Gráfico de Sectores Circulares (Pie): Usualmente llamado gráfico de pastel, debido a su forma característica de una circunferencia dividida en sectores, por medio de radios que dan la sensación de un pastel tajado en porciones. Se usa para representar variables cualitativas en porcentajes o cifras absolutas cuando el número de ítems no es superior a 5 y se quiere resaltar uno de ellos.
Pág. ¡Exigencia académica para grandes cambios!
29
ESTADÍSTICA
Fuente: DATUM INTERNACIONAL
c. Gráfico de Líneas o Tendencia: Usado básicamente para mostrar el comportamiento de una variable cuantitativa a través del tiempo. El gráfico de líneas consiste en segmentos rectilíneos unidos entre sí, los cuales resaltan las variaciones de la variable por unidad de tiempo. Cuando se tienen varias variables a representar, con el fin de establecer comparaciones entre ellas (siempre que su unidad de medida sea la misma); se utiliza plasmarlos en un sólo gráfico, el cual es el resultado de representar varias variables en un mismo plano. A este tipo de gráfico se le conoce como gráfico de líneas compuesto. Criterios para elaborar un diagrama de Líneas
1.- La utilización de la escala que se utilizará en el plano cartesiano puede variar tomando en cuenta el fenómeno que se va graficar. No es necesario que las abscisas (ejes x) y las ordenadas (eje y) del plano cartesiano lleven la misma escala; sin embargo, cuando las magnitudes de las variables no se diferencian sustancialmente, es recomendable utilizar escalas iguales para obtener un gráfico de mayor precisión. 2.- Cuando una de las variables en estudio se inicia con valores muy altos es recomendable no comenzar el eje por el origen cartesiano sino por un valor próximo o por el mismo valor por donde comienza la variable. 3.- Es costumbre representar en el eje de las x del plano cartesiano la variable independiente del estudio que se realiza y en el eje de las y la variable dependiente. En aquellos casos que se dificulta distinguir el tipo de variable se recomienda colocar en la ordenada del plano cartesiano las frecuencias de las variables en estudio y sobre la abscisa la variable cronológica (años, meses, semanas, días, horas, etc.).
Pág. ¡Exigencia académica para grandes cambios!
30
ESTADÍSTICA
Fuente: DATUM INTERNACIONAL
d. Histograma de Frecuencias: El histograma es un diagrama en forma de columna, muy parecido a los gráficos de barras. Se define como un conjunto de rectángulos paralelos, en el que la base representa la clase de la distribución y su altura la magnitud que alcanza la frecuencia de la clase correspondiente. Son barras rectangulares levantadas sobre el eje de las abscisas del plano cartesiano utilizando escalas adecuadas para los valores que asume la variable en la distribución de frecuencia. El ancho de la base de los rectángulos es proporcional a cada clase de la distribución, de tal manera que, cuando la distribución tiene clases de igual el tamaño de todos los rectángulos tendrá bases iguales. Los lados del rectángulo se levantan sobre los puntos del eje de las x que corresponden a los límites de cada clase y la longitud de los mismos será igual a la frecuencia que tenga esa clase, los lados por lo tanto corresponden a la frecuencia de cada clase de la distribución de frecuencia. Cuando se elaboran gráficas estadísticas en el plano cartesiano es recomendable que en el eje de las ordenadas se representen las frecuencias y en el eje de las abscisas las variables independiente. El eje de las y que representa las frecuencias debe empezar siempre en cero. Es importante señalar que la longitud del eje de las y que representa la altura tenga el 75 % de la longitud del eje de las x, es decir, si las variable independientes ocupan en el eje x 8 cm, la máxima altura que ocuparan las frecuencias en el eje y tendrá que ser de 6 cm.
Pág. ¡Exigencia académica para grandes cambios!
31
ESTADÍSTICA
Edades de los participantes de la Olimpiada de Video Juegos 2013
Fuente: Excel Foro Blogspot.com
e. Polígono de Frecuencias: Se utiliza básicamente para mostrar la distribución de frecuencias de variables cuantitativas. Es un diagrama de líneas que representa los puntos medios y las respectivas frecuencias de una distribución de frecuencia de clase. Es una representación gráfica cerrada de una distribución de frecuencia. Es otra de las formas de graficar los valores de una distribución de frecuencia de clase. No existe ninguna razón estadística para seleccionar los polígonos de frecuencia en vez de los histogramas o viceversa, los histogramas simplemente representan una manera de graficar y los polígonos de frecuencia otra; la diferencia entre ambos radica en que una barra vertical rectangular representa una clase y su frecuencia en el histograma y un punto cumple la misma función en el polígono de frecuencia. Para la construcción de un polígono de frecuencias, se marcan los puntos medios (marcas de clase) de cada uno los intervalos en la parte superior de cada barra del histograma de frecuencias, los cuales se unen con segmentos de recta. Pasos para elaborar un polígono de frecuencia 1.- Se dibuja un plano cartesiano. 2.- Se traza sobre el eje de las abscisas, a distancias iguales, los puntos medios de las diferentes clases de la distribución de frecuencias. 3.- Se levantan perpendiculares por cada una de las marcas de clase, con una longitud igual a la frecuencia de cada una de las clases que integran la distribución de frecuencia. Al final de cada perpendicular se marca un punto. 4.- Los puntos resultantes se unen por medio de una línea recta obteniéndose una línea poligonal. 5.- Con la finalidad de cerrar la línea poligonal se agrega una clase imaginaria con frecuencia cero a cada extremo de la distribución de frecuencia, por tal motivo ambos extremos del polígono se cortan con el eje de las abscisas. También se puede elaborar un polígono de frecuencia después de haber graficado un histograma; si se determina el punto medio de cada rectángulo de un histograma y esos puntos medios se unen por medio de segmentos de recta dan como resultado el polígono de frecuencia.
Pág. ¡Exigencia académica para grandes cambios!
32
ESTADÍSTICA
f. Histograma de Frecuencias Acumuladas: Se utiliza básicamente para mostrar la distribución de frecuencias acumulada de variables cuantitativas. Es una gráfica que se elabora con los valores de las frecuencias acumulados (menor que y mayor que) y los límites de las clases de una distribución de frecuencia. El polígono de frecuencia acumulada se le conoce comúnmente como ojiva. La ojiva es una representación gráfica que consiste en una línea, que puede ser ascendente o descendente y se utiliza para representar las distribuciones de frecuencias acumuladas menor que y mayor que, según los datos utilizados. En los estudios de análisis estadísticos la ojiva es de gran utilidad porque permite obtener con gran aproximación cierta información requerida, en un momento determinado. Pasos para elaborar una ojiva 1.- Se trazan los ejes de abscisa y ordenada del plano cartesiano. 2.- Se marca sobre el eje de las x los limites superiores de cada clase, si se trata de la ojiva menor que o los limites inferiores de la misma si se desea graficar la ojiva mayor que, curva descendente, y sobre el eje de las ordenas se marcan las magnitudes de las frecuencias acumuladas menor que( curva ascendente) de cada clase, si se quiere graficar la ojiva menor que o las frecuencias acumuladas mayor que de cada clase, si se desea graficar la ojiva mayor que. 3.- Se trazan perpendiculares por los límites superiores o inferiores de cada clase, según la ojiva que se desea graficar, la altura de la perpendicular tiene que ser igual a la frecuencia acumulada menor que o mayor que de la clase respectiva y al final de la misma se marca un punto. 4.- Por último se unen todos los puntos por medio de segmentos de recta, dando origen a la ojiva. Nota.- algunos investigadores consideran que la ojiva menor que y la mayor que se deberían graficar con los límites inferiores de clase y al final el último límite de la distribución.
Pág. ¡Exigencia académica para grandes cambios!
33
ESTADÍSTICA
g. Diagramas de dispersión o nubes de puntos: Este tipo de gráfico es útil para representar la relación existente entre dos variables de tipo cuantitativo
La representación gráfica de este tipo de variables es en realidad semejante a la representación de puntos en el plano, usando unos ejes de coordenadas. Cada pareja de valores da lugar a un punto en el plano y el conjunto de puntos que se obtiene se denomina "diagrama de dispersión o nube de puntos".
Pág. ¡Exigencia académica para grandes cambios!
34
ESTADÍSTICA
Fuente: Wikipedia
En el diagrama se muestra los tiempos de espera entre las erupciones del geiser Old Faithful encontrándose que hay dos tipos de erupciones. h. Pictograma: Tiene la característica de que las unidades de la variable se debe representar con símbolos que lo identifique y su tamaño va en relación a la frecuencia de la categoría de la variable
FUENTE: DIARIO EL COMERCIO PERU.
i. Pirámide: Se utiliza principalmente para presentar la distribución de la población por grupos etéreos y género.
Pág. ¡Exigencia académica para grandes cambios!
35
ESTADÍSTICA
j. Mapa: Se utiliza principalmente para presentar información estadística por zonas geográficas de un país, región, etc.
k. Diagrama de Pareto El diagrama de Pareto es una representación gráfica que permite identificar y seleccionar los aspectos prioritarios que hay que tratar en un determinado problema. También se conoce como diagrama ABC o Ley de las prioridades 20-80, que dice: “el 80% de los problemas que ocurren en cualquier actividad son ocasionados por el 20% de los elementos que intervienen en producirlos”. Sirve para conseguir el mayor nivel de mejora con el menor esfuerzo posible. El objetivo de esta representación es clasificar dichos elementos es en dos grupos: los pocos vitales y los muchos triviales. Los pasos para la elaboración del diagrama de Pareto son:
Pág. ¡Exigencia académica para grandes cambios!
36
ESTADÍSTICA Construya
una tabla de distribución de frecuencias ordenando las categorías en forma descendente respecto a la frecuencia. La categoría Otros deberá ser colocada en la última posición, no importa cuán grande sea, porque está compuesta de un grupo de categorías cuyas frecuencias son menores en relación al valor de la variable con frecuencia más pequeña listado individualmente. Agregue a la tabla de distribución de frecuencias una columna para las frecuencias acumuladas absolutas F. Elabore el diagrama de Barras y agregue la línea de frecuencias acumuladas relativas H F n. EJEMPLO Para crear un diagrama de Pareto debemos preparar los datos.
Posteriormente insertar una gráfica de columnas seleccionando toda la tabla de datos.
Ahora debemos convertir el gráfico del porcentaje acumulado en un gráfico de línea.
Pág. ¡Exigencia académica para grandes cambios!
37
ESTADÍSTICA
Ahora debemos agregar el eje secundario. Para ello se selecciona la gráfica de línea y en las opciones de Formato elige trazar el eje secundario.
Ahora que tenemos un diagrama de Pareto básico podemos terminar dándole algún formato especial y de manera opcional agregar una línea que muestre una constante del 80%
EJERCICIO El gerente de control de calidad de una pequeña fábrica que produce asientos especiales de fibra de vidrio, quiere identificar los problemas más importantes que se presentan en la elaboración de estos, y poder planear soluciones a dichos problemas de acuerdo a una estrategia basada en la prioridad del problema. Se extrae una muestra aleatoria de los problemas de calidad obteniendo los siguientes resultados: Problema detectado Color inadecuado Forma no simétrica Fragilidad Medidas fuera de norma Superficie rugosa Bordes afilados Desprendimiento de capa protectora Otros
Número de ocurrencias 18 6 3 33 43 2 8 6
Elabore el diagrama de Pareto y comente.
Pág. ¡Exigencia académica para grandes cambios!
38
ESTADÍSTICA
ACTIVIDAD N°2 PARTE I: Resuelva los ejercicios propuestos a continuación utilizando el archivo ACTIVIDAD N°2 y preséntelos de manera formal, puedes realizar el trabajo en el Excel o de manera analítica. Para ambos casos presenta el desarrollo paso por paso, tablero de frecuencia, gráfico y tres interpretaciones por cada caso. 1.Los sistemas de cómputo colapsan por muchas razones, entre ellas las fallas de hardware o software, errores del operador, sobrecargas del sistema mismo y a otras causas. Los resultados obtenidos en un estudio acerca de las causas de colapso en una muestra de 98 sistemas de cómputo se encuentran en la hoja Colapso. Suponga que se debe priorizar entre las dos principales causas de colapso de los sistemas de cómputo. Construya el tablero de frecuencias respectivo y luego elabore un gráfico adecuado que permita establecer 02 interpretaciones apropiadas. 2.El tiempo de inactividad es la cantidad del tiempo en el que un sistema de computadora no opera debido a una falla de hardware y software. Cuando el sistema se encuentra inactivo durante más de una hora todos los archivos de trabajo actuales se pierden. Los datos agrupados en la hoja Inactividad corresponden a los tiempos de inactividad (en minutos) registrados en una muestra de 30 y 28 sistemas de computadoras del turno mañana y tarde respectivamente. Turno mañana i 1 2 3 4 5 6
Lim Inf 20.5 25.5 30.5 35.5 40.5 45.5
Lim Sup 25.5 30.5 35.5 40.5 45.5 50.5
Marca 23 28 33 38 43 48
f
30
h
Turno tarde f
h
28
a.Construir el polígono de frecuencias para los datos agrupados del turno mañana y tarde en un solo gráfico. b.Elaborar un informe sustentado en el gráfico obtenido en el punto anterior. 3.Una distribuidora de circuitos integrados para computadoras vende su producto en lotes de 100 circuitos. Para la inspección de calidad se examinan 20 circuitos elegidos al azar de cada lote y se rechaza en caso de encontrar más de 4 circuitos defectuosos. Los datos en la hoja Circuitos muestra el número de circuitos defectuosos luego de inspeccionar 52 lotes. Construir una tabla de distribución de frecuencias para la variable en estudio luego grafique e indique dos interpretaciones pertinentes. 4.Se quiere comparar los resultados obtenidos por tres operadores, en cuanto a los tiempos (en minutos) utilizados en el restablecimiento de servicio de redes en el sistema de una importante entidad bancaria. Los resultados obtenidos se encuentran en la hoja Operador. a.Construir las tablas de distribución de frecuencias para los tres operadores por separado. Use la regla de Sturges. b.Construir los histogramas respectivos. Use la frecuencia relativa simple para cada gráfico. c.Elaborar un informe sustentado en los gráficos obtenidos en el punto anterior.
Pág. ¡Exigencia académica para grandes cambios!
39
ESTADÍSTICA 5.El jefe del área de sistemas de una empresa realizó un estudio para analizar el tiempo que demoran los empleados en detectar y resolver un problema informático de software o hardware. El estudio trata de estudiar las diferencias de tiempos en los turnos de trabajo A y B de una empresa. La hoja Tiempo muestra los datos obtenidos para una muestra de 40 problemas informáticos presentados en el turno A y 100 problemas informáticos presentados en el turno B. a.Construir la tabla de distribución de frecuencias para el turno A. Use la regla de Sturges. b.Construir los histogramas respectivos. Use la frecuencia relativa simple para cada gráfico. c.Elaborar un informe sustentado en los gráficos obtenidos en el punto anterior. 6.Se tiene información sobre los problemas de soporte técnico encontrados durante la instalación y configuración de Exchange 2000 Server y Exchange Server 2003. Construya un diagrama de Pareto para poder identificar los problemas principales. Los datos se encuentran en la hoja Instalación. La descripción de los problemas mencionados y la tabla de distribución de frecuencias se muestran a continuación. Problema A B C D E F Otros
Descripción Error de actualización de Exchange Server 5.5 Permisos insuficientes Problemas con el sistema de nombres de dominio (DNS) Forestprep o Domainprep no finalizaron correctamente Permisos de Active Directory insuficientes Falta el contenedor de conexiones de Active Directory Otros problemas
7.En una planta que fabrica 4 modelos de motos y se quiere resolver un problema de fallas reportadas en las últimas 12 semanas, para lo cual se recopiló la siguiente información: Falla de frenos Falla de transmisión Falla de encendido Falla en las luces Falla de ensamblaje Falla en la suspensión Falla en acabados
Modelo M18 3 6 3 2 8 4 3
Modelo M19 12 42 9 6 61 3 38
Modelo M20 4 1 2 1 9 4 2
Modelo M21 9 30 6 3 28 2 18
Utilizando el diagrama de Pareto, analice los datos presentados y decida cuál es la estrategia más conveniente para enfrentar los problemas en la planta. PARTE II: Por cada objetivo específico de la propuesta de investigación validada, presenta 4 preguntas como mínimo, respetando las características indicadas en la sección Métodos de Recolección de Datos.
ACTIVIDAD ADICIONAL 1.Alpha Soft es una compañía dedicada a brindar servicios informáticos a empresas que deseen tener una presencia firme y contundente en la red. Esta compañía se dedica al tendido de redes LAN, instalación de equipos, servidores y toda una gama de productos tecnológicos que puedan resultar imprescindibles para una empresa. Como parte de un estudio realizado por Alpha Soft se analiza la información correspondiente a las siguientes variables: I.Tipos de lenguajes de programación (Cobol, Java, Informixs-4gl, etc) II.Cantidad de servidores por empresa. III.Costo de las licencias de software (en dólares)
Pág. ¡Exigencia académica para grandes cambios!
40
ESTADÍSTICA IV.Sistema operativo instalado (Windows, UNIX, etc) V.Fecha de mantenimiento del software. Para la lista anterior identifique el tipo de variable y la escala de medición correspondiente. 2.La empresa Beta Internet llevó a cabo un estudio entre los usuarios de Internet en Lima para poder analizar el mercado de posibles compradores a través de este servicio. Como parte del estudio realizado se analizó la información correspondiente a una muestra de 1500 usuarios con relación a las siguientes variables: I.Edad del principal usuario. II.Número de computadoras en casa con servicio de Internet. III.Calidad del servicio de Internet (bueno, regular, deficiente). IV.Tiempo diario de uso del servicio de Internet (en horas). V.Marca de la computadora con mayor uso del servicio de Internet. De acuerdo al enunciado anterior identificar la población, muestra, el tipo de variable y la escala de medición correspondiente. 3.Los datos en la hoja Dominios tiene información para una muestra sobre los dominios de segundo nivel registrados bajo la categoría .pe. La tabla de distribución de frecuencias para estos datos se muestra a continuación. a.Construir un gráfico de barras. b.Construir un gráfico circular. c.Escriba dos interpretaciones. 4.Los datos en la hoja Interrupciones corresponden al número de interrupciones semanales en el sistema de red de una prestigiosa universidad registrado el último año. a.Construir un diagrama de barras y líneas. b.Establezca dos interpretaciones.
5.Enigma Systems S.A. emprendió un estudio para determinar el comportamiento de un sistema de grabación de programas informáticos. Para que el proceso funcione adecuadamente la señal debe estar entre 9.2 y 10 voltios. Se instalaron los sistemas de grabación y se tomaron lecturas respectivas. Los datos registrados se encuentran en la hoja Lecturas. a.Construir la tabla de distribución de frecuencias usando la regla de Sturges. b.Elaborar según la tabla anterior el histograma, polígono y ojiva.
Pág. ¡Exigencia académica para grandes cambios!
41
ESTADÍSTICA
TEMA 03: MEDIDAS DESCRIPTIVAS 1.3 MEDIDAS DESCRIPTIVAS En los temas anteriores, se trató sobre la clasificación, ordenación y presentación de datos estadísticos en distribuciones de frecuencia, limitando el análisis de la información a su interpretación porcentual. Una distribución de frecuencias presenta siempre varios valores. Si tratamos de saber cuáles de estos valores por sí solos definen mejor al conjunto, no es posible decidir por cuál de ellos. El análisis estadístico propiamente dicho, parte de la búsqueda de parámetros sobre los cuales pueda recaer la representación de toda la información, realizándose esta representación en las medidas descriptivas o también denominadas medidas de resumen.
SESIÓN III y IV:
LOGRO:
INFORMACIÓN:
MEDIDAS DE TENDENCIA CENTRAL
Explica el concepto de tendencia central. Calcula e interpreta la media, mediana y moda. Calcula e interpreta los cuantiles.
Conceptos, propiedades, ventajas y desventajas, cálculo de datos agrupados y no agrupados de: Media aritmética, Mediana, Moda, Media Ponderada y Cuantiles.
1.3.1 MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN
Las medidas de tendencia central, llamadas así porque tienden a localizarse en el centro de la información. De tendencia porque no necesariamente son valores que la distribución presenta, sino valores hacia los cuales tiende o aproxima. Centrales porque, normalmente, en el gráfico de frecuencias serán siempre valores medios centrales. Las medidas de tendencia central responden a la necesidad de describir una colectividad en función de una sola medida que la caracterice y distinga, ya sea porque son los más frecuentes (moda) o porque alrededor de ellos se agrupa la mayor parte de la población o muestra (media o mediana), Las medidas de tendencia central, son también medidas de posición ya que, de todas maneras ocupan un lugar dentro de la información, los parámetros posicionales son muy útiles en la interpretación porcentual de la información. Este tipo de medidas son de gran importancia en el manejo de las técnicas estadísticas, sin embargo, su interpretación no debe hacerse aisladamente de las medidas de dispersión, ya que la representatividad de ellas está asociada con el grado de concentración de la información. Las principales medidas de tendencia central y posición son: 1.3.1.1 Media aritmética. 1.3.1.2 Mediana 1.3.1.3 Moda. 1.3.1.4 Media Ponderada 1.3.1.5 Cuantiles (Medidas de localización)
Pág. ¡Exigencia académica para grandes cambios!
42
ESTADÍSTICA 1.3.1.1 MEDIA ARITMÉTICA Definida matemáticamente como el cociente entre la suma de todos los valores de la variable y el número de observaciones. a. Simbología: Si la media muestral es calculada de una población se simboliza mediante
Si la media muestral es calculada de una muestra de una población se simboliza mediante
x
b. Cálculo de la Media La media, media aritmética o promedio de un conjunto de datos es la suma de dichos valores dividida entre el número total de datos. Datos no agrupados Media poblacional:
1 n 1 N x x Media muestral: i xi N i 1 n i 1
Datos agrupados
1 k / 1 k / x x f Media muestral: i i xi f i N i 1 n i 1 / donde k es el número de intervalos, xi es el valor del dato individual., xi la marca de clase, n es el tamaño de la muestra y N es el tamaño de la población. Media poblacional:
Ejemplo : La inversión anual (en miles de nuevos soles) de un grupo de pequeñas empresas de la ciudad fueron: 10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17 13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39 Calcule e interprete la media. Solución: Obtenemos
X
x
i
n
10 12 40 10 30 ... 39 20.125 32
Interpretación: En promedio las pequeñas empresas invierten 20.125 nuevos soles al año. b.2 Para datos agrupados
X
xi f i n
X xi hi
o
Ejemplo 2: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Calcule e interprete la media Nº de Vendedores Pólizas 1
2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Pág. ¡Exigencia académica para grandes cambios!
43
ESTADÍSTICA Solución: Completando la siguiente tabla para el cálculo de la media aritmética Nº de Pólizas 1 2 3 4 5 6 7 8 9 Total
El promedio es:
X
Vendedores 2 10 15 20 40 24 15 12 2
x f i
i
n
Xi*fi 2 20 45 80 200 144 105 96 18 710
710 5.07 140
Interpretación: El número de pólizas que se venden en promedio en dicha empresa es 5. Ejemplo 3: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete la venta promedio por factura. Montos
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Solución: Completando la siguiente tabla para el cálculo de la media aritmética Montos
Facturas
Xi
Xi*fi
1 500 - 2 900
27
2200
59400
2 900 - 5 700
58
4300
249400
5 700 - 8 700
216
7200
1555200
8 700 - 11 000
52
9850
512200
11 000 - 14 000
23
12500
287500
14 000 - 17 000
12
15500
186000
Total
388
El promedio es:
X
x f i
n
i
2849700
2849700 7344 .59 388
Interpretación: El monto promedio de facturación de dicha empresa es de 7344.59
Pág. ¡Exigencia académica para grandes cambios!
44
ESTADÍSTICA c. Propiedades de la media aritmética - La suma de las diferencias de los datos con respecto a la media aritmética es igual cero.
- La suma de las diferencias cuadráticas de los datos, con respecto a la Media Aritmética, es mínima. - La media aritmética de una constante es la misma constante. - Si a cada uno de los resultados le sumamos o le restamos una constante k , la Media Aritmética queda alterada en esa constante. - Si cada uno de los datos se multiplica por una constante k, entonces la media aritmética queda multiplicada por esa constante - La media aritmética de la suma o diferencia de dos variables es la suma o diferencia de sus medias. d. Ventajas de la media aritmética - Es fácil de entender y usar. - Hace uso de todos los datos de la distribución, por lo cual es una medida de tendencia central eficiente. - Es el más conocido y popular de los promedios, el primero en el que piensan las personas, aunque no sepan estadística. - El hecho de que su definición no sea lógica sino matemática hace que sea la medida de tendencia central usada con preferencia en Inferencia Estadística y en la mayoría de tests estadísticos. e. Desventajas de la media aritmética - Puede ser influenciada por valores extremos, que la hagan perder su valor como medida de tendencia central - En ciertos casos puede no representar un valor observable, lo cual en el caso de variables discretas resulta artificioso. - No puede calcularse para series cualitativas. - Resulta tedioso calcular la media debido a que utilizamos cada uno de los puntos de dato de nuestro cálculo. - Somos incapaces de calcular la media para un conjunto de datos que tiene clases de extremo abierto, ya sea en el inferior o en el superior de la escala. 1.3.1.2 MEDIANA Su definición no es matemática sino lógica, entendemos por mediana aquel valor de la variable que divide en dos partes iguales a un conjunto ordenado de datos. a. Simbología Se simboliza con Me b. Cálculo de la Mediana b.1 Para datos no agrupados Para el cálculo de la mediana los datos deben estar ordenados de menor a mayor, y deja a su izquierda y derecha el mismo número de elementos, es decir, el valor que ocupa el lugar central es la mediana. Lo anterior tiene sentido en caso de que la serie tenga un número impar de elementos, si por el contrario tuviera un número par habría dos valores centrales, y en este caso se toma como mediana la media aritmética de los dos valores centrales. Ejemplo: Si el número de datos es par
Pág. ¡Exigencia académica para grandes cambios!
45
ESTADÍSTICA La inversión anual (en miles de soles) de un grupo de pequeñas empresas de la ciudad fueron: 10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 Calcule e interprete la mediana. Solución: Primero debemos ordenar los datos en forma ascendente (de menor a mayor) 10 10 10 11 12 13 13 14 14 14 15 15 16 18 19 20 20 21 22 25 26 27 28 30 30 30 Luego el número de datos se divide en dos partes iguales
17 30
17 39
17 39
18 40
n 32 16 2 2
Se elige los valores centrales de la variable que tiene la posición i=16 y i=17 que para el ejercicio son 18 y 18 La mediana será:
Me
18 18 Me 18 2
Interpretación: El 50% de las pequeñas empresas han invertido como máximo 18 mil nuevos soles al año. Ejemplo: Si el número de datos es impar La inversión anual (en miles de nuevos soles) de un grupo de pequeñas empresas de la ciudad fueron: 10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17 13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39 Calcule e interprete la mediana.
18
Solución: Primero debemos ordenar los datos en forma ascendente (de menor a mayor) 10 18
10 19
10 20
11 20
12 21
13 22
13 25
14 26
14 27
14 28
Luego el número de datos se divide en dos partes iguales
15 30
15 30
16 30
17 30
17 39
18 40
18
n 33 16,5 2 2
Se elige el valor centrales de la variable que tiene la posición i=17, X17=18 La mediana será: Me 18 Interpretación: El 50% de las pequeñas empresas han invertido como máximo 18 mil nuevos soles al año. b.2 Para datos agrupados El primer paso es identificar el intervalo en el que por primera vez la frecuencia relativa acumulada es por lo menos 0.5. Dicho intervalo será el que contenga el valor de la mediana. Mediana poblacional: Me
Mediana muestral: me
donde
Li
Li
wN Fi 1 fi 2
wn Fi 1 fi 2
L i es el límite inferior del intervalo que contiene a la mediana, w es el ancho de clase,
f i es la frecuencia absoluta simple del intervalo que contiene a la mediana, Fi 1 es la frecuencia
Pág. ¡Exigencia académica para grandes cambios!
46
ESTADÍSTICA absoluta acumulada del intervalo anterior al que contiene a la mediana, n es el tamaño de la muestra y N es el tamaño de la población. Ejemplo 2: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Nº de Pólizas
Vendedores
1
2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Calcule e interprete la mediana. Solución: Como los datos tabulados ya están ordenados, debemos encontrar el valor de la variable que ocupa la posición central, entonces dividimos al conjunto de datos “n” en dos partes:
n 140 70 2 2 Entonces ubicamos en la tabla el valor que tenga la posición 70, para eso calculamos la frecuencia acumulada. Como regla práctica se busca el primer valor en el F acumulado que contenga a n/2, en este caso es el F 5 cuyo valor es 87 siendo mayor que 70 por primera vez en el acumulado. Nº de Pólizas
Vendedores
Fi
1
2
2
2
10
12
3
15
27
4
20
47
5
40
87
6
24
111
7
15
126
8
12
138
9
2
140
Entonces la mediana es:
Me 5
Interpretación: El 50% de los vendedores vende 5 o más pólizas . Ejemplo: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete la venta mediana
Pág. ¡Exigencia académica para grandes cambios!
47
ESTADÍSTICA Montos
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Calcule e interprete la mediana. Solución: Para aplicar los valores en:
Me Li j w j
n / 2 F j 1 fj
debemos encontrar la
clase “j” denominada “clase mediana.” La clase mediana es aquella que contiene a la mitad de del conjunto de datos, esto es el que contenga la posición
n 388 194 , para eso calculamos la frecuencia acumulada: 2 2 Montos 1 500 - 2 900
Facturas
Fi
27
27
2 900 - 5 700
58
85
5 700 - 8 700
216
301
8 700 - 11 000
52
353
11 000 - 14 000
23
376
14 000 - 17 000
12
388
Total
388
Entonces aplicando en la fórmula:
194 85 Me 5700 3000 ( ) 7213 .9 216
Interpretación: ____________________________________________________________________ ____________________________________________________________________ 1.3.1.3 MODA Entendemos por moda el valor de la variable que más veces se repite, y en una distribución de frecuencias el valor con mayor frecuencia absoluta simple Puede darse el caso de que no haya moda (amodal), sólo una (unimodal), dos modas (bimodal) o varias modas (multimodal). a. Simbología Se simboliza con Mo b. Cálculo de la Moda b.1 Para Datos no agrupados En este caso la determinación de la moda es inmediata por simple observación. Aquel valor de la variable con mayor frecuencia es la moda.
Pág. ¡Exigencia académica para grandes cambios!
48
ESTADÍSTICA Ejemplo: La inversión anual (en miles de nuevos soles) de un grupo de pequeñas empresas de la ciudad fueron: 10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17 13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39 Calcule e interprete la moda. Solución: Buscamos el valor que más se repita, en este caso es:
Mo 30
Interpretación: Las pequeñas empresas con mayor frecuencia han invertido 30 mil nuevos soles al año.
b.2 Para Datos Agrupados El primer paso es identificar el intervalo con mayor frecuencia absoluta simple. Dicho intervalo será el que contenga el valor de la moda.
d1 w d1 d2 d1 Moda muestral: mo L i w d1 d 2 Moda poblacional: Mo Li
donde L i es el limite inferior del intervalo que contiene a la moda, w es el ancho de clase,
d1 f i f i 1 es la diferencia entre la frecuencia absoluta simple del intervalo que contiene a la moda y la frecuencia absoluta simple del intervalo anterior, d 2 f i f i 1 es la diferencia entre la frecuencia absoluta simple del intervalo que contiene a la moda y la frecuencia absoluta simple del intervalo siguiente, n es el tamaño de la muestra y N es el tamaño de la población.
Ejemplo: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Nº de Vendedores Pólizas 1 2 2 10 3 15 4 20 5 40 6 24 7 15 8 12 9 2 Calcular e interpretar la Moda. Solución: El cálculo es bastante sencillo, sólo ubicamos el valor que tenga la mayor frecuencia, que para el ejercicio es: Mo 5
Pág. ¡Exigencia académica para grandes cambios!
49
ESTADÍSTICA Interpretación: En dicha empresa es usual vender 5 pólizas por semana. Ejemplo 3: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete la venta modal Montos
Facturas
1 500 - 2 900 2 900 - 5 700 5 700 - 8 700 8 700 - 11 000 11 000 - 14 000 14 000 - 17 000
27 58 216 52 23 12
Montos
Facturas
Solución:
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700 8 700 - 11 000
216 52
11 000 - 14 000
23
14 000 - 17 000
12
Para aplicar los valores en:
d1 mo L i w d d 2 1
debemos encontrar la clase “j” denominada “clase modal” La clase modal es aquella que tenga la mayor frecuencia, entonces para nosotros es la clase que tiene la frecuencia 216 Entonces aplicando en la fórmula:
216 58 7172 .05 mo 5700 3000 (216 58) (216 52) Interpretación: El monto de facturación que más se repite es de 7172.05
Ejemplo: Las medidas de tendencia central se pueden obtener para los datos agrupados del turno mañana de una empresa respecto al tiempo de producción de cierto producto de la siguiente forma:
i Lim Inf Lim Sup Marca f 1 20.5 25.5 23 1 2 25.5 30.5 28 3 3 30.5 35.5 33 0 4 35.5 40.5 38 2 5 40.5 45.5 43 20 6 45.5 50.5 48 4 30
Turno mañana h F H 0.0333 1 0.0333 0.1000 4 0.1333 0.0000 4 0.1333 0.0667 6 0.2000 0.6667 26 0.8667 0.1333 30 1.0000
Pág. ¡Exigencia académica para grandes cambios!
50
ESTADÍSTICA
1 6 / 1 xi f i 1235 41.17 minutos 30 i 1 30 5 30 Mediana muestral: me 40.5 6 42.75 minutos 20 2 18 Moda muestral: mo 40.5 5 43.15 minutos 18 16 Media muestral:
x
CARACTERÍSTICAS DE LA MEDIA ARITMÉTICA -Es un promedio razonablemente estable, siendo la medida descriptiva más conocida y usada en Estadística, debido a su estabilidad general ya que está bien definida. -Es única, es decir, un conjunto de datos tiene solamente una media. -Se calcula tomando en cuenta a todos y cada uno de los datos. -Su significado es de fácil entendimiento. -Como la media localiza el medio físico ( centro de gravedad) de una distribución de datos, es una medida de tendencia central muy sensible a los valores extremos y estos valores si son desproporcionados desplazan el valor de la media hacia los extremos reduciendo su utilidad. -La media aritmética depende de todos los datos observados, en consecuencia es afectada o sesgada por valores extremos. -La media aritmética puede ser calculada también en una distribución de frecuencias por intervalos de amplitud diferentes, siempre que se pueda determinar los puntos medios de los intervalos. CARACTERÍSTICAS DE LA MEDIANA -Como estadígrafo de posición, la mediana le sigue en importancia y usos a la media. -Es una medida única, es decir, una distribución de datos tiene solamente una mediana. -La mediana depende sólo del número de datos ordenados y no del valor de los datos, por lo tanto no es sesgada por algún valor grande o pequeño. -El valor de la mediana depende únicamente del valor o valores centrales. -No cambia de valor si se agregan un mismo número de datos mayores o menores que ella. En consecuencia no es sensible a valores extremos. -La mediana puede ser calculada para distribuciones de frecuencia con intervalos de diferente amplitud, siempre que se pueda determinar el límite inferior del intervalo de la mediana. -La mediana puede ser calculada para variables con valores en escala ordinal. -La mediana es más recomendable que la media aritmética cuando: Existan valores extremos excepcionalmente grandes o muy pequeños que difieren considerablemente del resto, ya que la mediana no está afectada por los valores extremos como sucede con la media. En estos casos la mediana es más representativa que la media ya que localiza mejor el centro de la distribución de datos. Se trabaja con tablas de frecuencias con intervalos en donde no se indica el extremo inferior del primer intervalo o no se indica el extremo superior del último intervalo o ambos casos. Esto no indica que no exista la media, la cual existe y siempre se puede calcular. Se tiene datos cualitativos, susceptibles de ordenarse de acuerdo a rangos, calificaciones o categorías. CARACTERÍSTICAS DE LA MODA -Le sigue en importancia a la media y mediana. -Es un estadígrafo muy útil cuando los datos son del tipo cualitativo. -Su fácil interpretación y su cálculo sencillo hacen de la moda una medida de localización más usual y práctica.
Pág. ¡Exigencia académica para grandes cambios!
51
ESTADÍSTICA -No es una medida única como la media y la mediana. -Un conjunto de datos puede tener más de una moda. Mediante una clasificación adecuada una multimodal se puede convertir en una unimodal. -El cálculo de la moda es independiente del valor de los datos. La moda puede permanecer igual variando los valores o incrementando el número de ellos. 1.3.1.4 MEDIA PONDERADA Se utiliza cuando los datos a promediar no tienen la misma importancia, peso o ponderación dentro del conjunto total. n
xw
xw i 1 n
i
w i 1
donde
i
i
xi es el dato original y wi es el peso o ponderación asignado a cada dato.
Ejemplo: Una empresa tiene tres turnos de trabajo en sus dos locales. Los trabajadores en cada uno de estos turnos participan de acuerdo a la siguiente tabla:
Turno Mañana Tarde Noche
Salario por hora (S/.) 12 15 18
Número de horas trabajadas Local 1
Local 2
50 20 10
40 35 25
El salario promedio por hora en cada local es:
12 50 15 20 18 10 13.50 nuevos soles 50 20 10 12 40 15 35 18 25 Local 2: x w 14.55 nuevos soles 40 35 25 Local 1:
xw
Luego, el local 2 tiene un mayor salario promedio por hora. 1.3.1.4 CUANTILES Las medidas de posición o cuantiles son los valores que determinan la posición de un dato respecto a todos los demás datos de una serie y que previamente ha sido ordenada de menor a mayor. Los cuantiles más importantes dividen a los datos ordenados de menor a mayor en 100, 10 y 4 cantidades iguales de datos, denominándose centiles, deciles y cuartiles respectivamente. CENTIL: También conocido como percententil o porcentil. El centil k, Pk. es el valor numérico tal que el k por ciento de los datos ordenados está por debajo de ese valor y el (100 – k) por ciento de los datos está por encima de ese valor. DECIL: Se denomina así a cada uno de los nueve centiles: P10, P20, P30… P90 y se les denota como D1, D2, D3, …, D9 respectivamente. CUARTIL: Se denomina así a cada uno de los tres centiles: P25, P50, P75 y se les denota como Q1, Q2 y Q3 respectivamente.
Pág. ¡Exigencia académica para grandes cambios!
52
ESTADÍSTICA Además, se define el rango intercuartil (llamado también propagación media) como la diferencia entre el tercer cuartil y el primer cuartil en una serie de datos, es decir: Rango intercuartil (RIC) = Q3 – Q1 CUANTILES PARA DATOS NO AGRUPADOS Los cálculos se centrarán en encontrar los valores de los centiles. Para hallar valores de deciles o cuartiles simplemente encontraremos el valor del centiles correspondientes. Si tenemos n datos ordenados de menor a mayor y queremos determinar el valor del centil Pk. Localización: La posición que ocupa el centil Pk en la lista de datos ordenados está determinada por la expresión:
n 1 .k 100
Identificación: Si la posición del centil es un número entero, el centil buscado será el dato que ocupa dicha posición en la serie ordenada. Si la posición del centil no es un valor entero, es decir, el centil está entre dos valores ubicados consecutivamente, entonces el valor del centil se obtiene de la siguiente expresión:
dato menor (dato mayor dato menor).( parte decimal de posición) CUANTILES PARA DATOS AGRUPADOS EN INTERVALOS Si tenemos n datos agrupados en clases y queremos determinar el valor del centil Pk. Localización: La posición que ocupa el centil Pk en la lista de datos ordenados está determinada por la expresión:
n .k 100 Identificación: Identificamos primero la clase en la que se encuentra el centil Pk. El valor del centil se determina por al siguiente expresión:
Pk Li
w n.k ( F) f 100
donde: Li : límite inferior de la clase del centil. f : frecuencia de la clase del centil. F : frecuencia acumulada de la clase que precede a la clase del centil. w : amplitud de clase. n : número de datos.
Ejemplo Como ejemplo efectuamos el cálculo del primer cuartil Q1. En primer lugar tomemos los datos no agrupados correspondientes a las edades de los 80 estudiantes entrevistados cuyos resultados se encuentran en la siguiente tabla:
Pág. ¡Exigencia académica para grandes cambios!
53
ESTADÍSTICA Estudiante
peso
estudiante
peso
estudiante
peso
estudiante
peso
1 2 3 4 5 6 9 10 11 12 13 14 15 16 1 1 19 20
45 4 51 51 52 52 53 53 54 54 55 55 56 56 5 5 5 5 5 59
21 22 23 24 25 26 2 2 29 30 31 32 33 34 35 36 3 3 39 40
59 59 60 60 60 60 61 61 61 61 62 62 62 62 63 63 63 63 64 64
41 42 43 44 45 46 4 4 49 50 51 52 53 54 55 56 5 5 59 60
64 64 65 65 65 65 66 66 66 66 6 6 6 6 6 6 6 6 6 69
61 62 63 64 65 66 6 6 69 0 1 2 3 4 5 6 9 0
69 0 0 1 2 3 4 5 5 6 6 9 0 1 4 5
Solución: El primer cuartil Q1 es equivalente al 25 centil P25, Localización:
n +1 80 + 1 .k= . 25 = 20,25a 100 100 Identificación: Está entre el dato 20º y el dato 21º , como ambos datos tienen un valor de 59, entonces el valor del primer cuartil es 59. Ahora consideremos los mismos datos pero agrupados en clases . El primer cuartil Q1 es:
Clase 45 – 51 51 – 57 57 – 63 63 – 69 69 – 75 75 – 81 81 – 87
Marca de clase x 48 54 60 66 72 78 84
f
F
4 13 21 23 8 8 3
4 17 38 61 69 77 80
Localización:
n . 25 = 20o 100 El dato 20º se encuentra en la clase 57 – 63. Identificación:
Pág. ¡Exigencia académica para grandes cambios!
54
ESTADÍSTICA
Q1 P25 57
6 80 . 25 ( 17) 58,86 20 100
Ejemplo para una Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Calcule e interprete: 1. Cuartil 1 5. Decil 9 2. Cuartil 2 6. Percentil 5 3. Cuartil 3 7. Percentil 78 4. Decil 3 8. Percentil 99 Nº de Pólizas
Vendedores
1
2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Total
140
Solución: Cálculo de Cuartil 1 Como los datos tabulados ya están ordenados, debemos encontrar el valor de la variable que contiene el i=25% de los datos, entonces calculamos el 25% de “n”: 25%(140 ) 35 Entonces ubicamos en la tabla el valor que tenga la posición 35, para eso calculamos la frecuencia acumulada Nº de Pólizas
Vendedores
Fi
1
2
2
2
10
12
3
15
27
4
20
47
5
40
87
6
24
111
7
15
126
8
12
138
9
2
140
Entonces el cuartil 1 es:
Q1 P25 4
Interpretación: Hay un 75% de vendedores que venden 4 o más pólizas por semana.
Pág. ¡Exigencia académica para grandes cambios!
55
ESTADÍSTICA EJERCICIO Calcule paso por paso los cuantiles que se indican.
1. Q1=
5. D9=
2. Q2=
6. P5=
3. Q3=
7. P78=
4. D1=
8. P99=
Ejemplo 3: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete: 1. Cuartil 1 5. Decil 9 2. Cuartil 2 6. Percentil 5 3. Cuartil 3 7. Percentil 78 4. Decil 3 8. Percentil 99
Montos
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Total
388
Solución: Cálculo del Cuartil 1 (Q1): Para aplicar los valores en:
Pi Li j w j
i%n F j 1 debemos encontrar la clase “j” fj
denominada “clase del i-ésimo percentil”. La clase del i-ésimo percentil es aquella que contiene el i%=25% del conjunto de datos, esto es el que contenga la posición
i %n 25(388) 97 100 100
, para eso calculamos la frecuencia acumulada:
Pág. ¡Exigencia académica para grandes cambios!
56
ESTADÍSTICA Montos
Facturas
Fi
1 500 - 2 900
27
27
2 900 - 5 700
58
85
5 700 - 8 700
216
301
8 700 - 11 000
52
353
11 000 - 14 000
23
376
14 000 - 17 000
12
388
Total
388
Entonces aplicando en la fórmula:
97 85 Q1 P25 P25 5700 3000 ( 216 ) 5866 .7
Interpretación: Hay un 25% de facturas con montos menores o iguales que 5866.7. EJERCICIO Calcule paso por paso los cuantiles que se indican.
1. Q1=
5. D9= z
2. Q2=
6. P55=
3. Q3=
7. P78=
4. D1=
8. P99=
ACTIVIDAD N°3 Resuelve formalmente los siguientes problemas con la ayuda del Excel o de manera analítica y preséntalos en el folder del curso. 1. Los datos mostrados en la siguiente tabla corresponden a la vida (en años) de 48 baterías similares de automóvil de la marca Enigma. El fabricante de las baterías garantiza que éstas duran tres años. 2,2 3,4 2,5 3,3 4,7 1,7
4,1 1,6 4,3 3,1 3,8 2,3
3,5 3,1 3,4 3,7 3,2 2,6
4,5 3,3 3,6 4,4 2,6 3,2
3,2 3,8 2,9 3,2 3,9 3,5
3,7 3,1 3,3 4,1 3,0 4,3
3,0 4,7 3,9 2,0 4,2 4,8
2,6 3,7 3,1 3,4 3,5 4,0
Pág. ¡Exigencia académica para grandes cambios!
57
ESTADÍSTICA De acuerdo a los datos mostrados se pide:
a. Determine la población objetivo, la unidad de muestreo, la variable estudiada, su tipo y su b. c. d. e. f. g. 2.
escala de medición. Elabore la tabla de distribución de frecuencias tomando en cuenta que se desea que los datos estén agrupados en intervalos, que el límite inferior del primer intervalo sea 1,5 años y que la amplitud de intervalo sea de medio año. Elabore el histograma y la ojiva correspondiente. Calcule la media, mediana y moda e interprete. Calcule la desviación estándar y el coeficiente de variación y de asimetría. Con los datos ofrecidos, ¿es posible saber qué porcentaje de la producción de baterías marca Enigma supera el periodo de garantía indicado por el fabricante? Sustente su respuesta. Elabore un breve informe con las conclusiones del análisis de los resultados obtenidos.
Las notas que obtuvieron 120 alumnos en el examen parcial de “Nivelación de Estadística” son presentadas parcialmente en la siguiente tabla: Marca de clase xi
Clase 6-
frecuencia absoluta fi
frecuencia relativa hi 0,15
Frec. abs. acumulada Fi
Frec. rel. acumulada Hi 0,45 0,70
13,5 0,10
a. Complete la tabla de distribución de frecuencias y luego elabore la ojiva correspondiente b. c. 3.
e indique qué porcentaje de las notas se encuentren aproximadamente en el intervalo [4, 14]. Calcule las medidas de tendencia central e interprete. Calcule el Q1 y el D9 e interprete.
Enigma Systems S.A. emprendió un estudio para determinar el comportamiento de un sistema de grabación de programas informáticos en el que para que el proceso funcione adecuadamente la señal debe estar entre 9,2 y 10 voltios. Se instalaron sistemas de grabación tanto en una ubicación antigua como en una nueva ubicación y se tomaron lecturas. Los datos registrados se muestran en la siguiente tabla:
8,05 8,72 8,72 8,80 9,55 9,70 9,73 9,80 9,80 9,84
Ubicación antigua 9,84 9,87 9,87 9,95 9,97 9,98 9,98 10,00 10,01 10,02
10,03 10,05 10,05 10,12 10,15 10,15 10,26 10,26 10,29 10,55
8,51 8,65 8,68 8,72 8,78 8,80 8,82 8,82 8,83 9,14
Ubicación nueva 9,19 9,55 9,27 9,60 9,35 9,63 9,36 9,64 9,37 9,70 9,39 9,75 9,43 9,85 9,48 9,87 9,49 9,95 9,54 9,98
10,01 10,03 10,05 10,05 10,09 10,10 10,12 10,12 10,15 10,15
a. Elabore las tablas de distribución de frecuencias de los datos de ambas muestras de tal b. c. d. e.
manera que permita su comparación apropiadamente. Elabore los histogramas para su comparación. En un solo gráfico elabore las ojivas respectivas. Calcule el P75 y D10 e interprete. Elabore un informe sustentado de sus conclusiones.
Pág. ¡Exigencia académica para grandes cambios!
58
ESTADÍSTICA
4.
A continuación se presentan los datos correspondientes a la duración (en horas) de una muestra de 40 focos de 100 watts producidos de la marca A y una muestra de 40 focos de 100 watts de la marca B.
Marca A 684 831 859 893 922 939 972 1 016
Marca B 697 835 860 899 924 943 977 1 041
720 848 868 905 926 946 984 1 052
773 852 870 909 926 954 1 005 1 080
821 852 876 911 938 971 1 014 1 093
819 907 952 994 1 016 1 038 1 096 1 153
836 912 959 1 004 1 018 1 072 1 100 1 154
888 918 962 1 005 1 020 1 077 1 113 1 174
897 942 986 1 007 1 022 1 077 1 113 1 188
903 943 992 1 015 1 034 1 082 1 116 1 230
a. Agrupe los datos de cada muestra en clases y elabore las respectivas tablas de distribución b. c. d. e.
5.
de frecuencias. Compare en un solo cuadro los polígonos de frecuencias de ambas muestras. Interprete. Grafique las ojivas de cada muestra en una misma gráfica. Calcule la media, mediana y moda de cada marca. Elabore un breve informe en el que presente el análisis y las conclusiones de los resultados obtenidos.
El Jefe de Control de Calidad en Enigma Autos S.A. en su estudio de la calidad de los productos que distribuye su empresa, desea comparar varias características de diseño de modelos de automóviles norteamericanos y europeos. La siguiente tabla contiene las frecuencias acumuladas absoluta y relativa (en porcentaje) de las distancias que recorren los autos (en pies) cuando son frenados a una velocidad de 140 Km./h. para una muestra de 25 modelos de automóviles de fabricación estadounidense y 72 modelos de automóviles de fabricación europea obtenidos en un año reciente. Distancia de frenado (en pies) 210 - 220 220 - 230 230 - 240 240 - 250 250 - 260 260 - 270 270 - 280 280 - 290 290 - 300 300 - 310 310 - 320
Modelos de automóviles estadounidenses Número Porcentaje 1 4,0 2 8,0 3 12,0 4 16,0 8 32,0 11 44,0 17 68,0 21 84,0 23 92,0 25 100,0 25 100,0
Modelos de automóviles Europeos Número Porcentaje 1 1,4 4 5,6 19 26,4 32 44,4 54 75,0 61 84,7 68 94,4 68 94,4 70 97,2 71 98,6 72 100,0
a. ¿Qué porcentaje de automóviles de fabricación estadounidense tienen distancia de frenado b. c. d. e.
de 248 pies o más?. Elabore completamente la tabla de distribución de frecuencias. En un solo cuadro, presente los polígonos de frecuencia correspondiente. En un solo cuadro, presente las ojivas correspondientes a las dos series de datos. Compare la media, mediana y moda de los modelos de acuerdo a su procedencia.
Pág. ¡Exigencia académica para grandes cambios!
59
ESTADÍSTICA f.
Elabore un breve informe en el que esté su análisis y las conclusiones de los resultados obtenidos de la comparación de los dos grupos de datos.
ACTIVIDAD ADICIONAL Construye el tablero de frecuencias de las series de datos presentadas en el laboratorio archivo EJERCICIOS_MEDIDAS_DE_TENDENCIA_CENTRAL.exe y calcula en cada uno de ellos sus indicadores estadísticos estudiados. Presenta tu trabajo de manera formal en la siguiente clase.
Pág. ¡Exigencia académica para grandes cambios!
60
ESTADÍSTICA
SESIÓN V y VI IV:
MEDIDAS DE DISPERSIÓN Y DE FORMA
LOGRO:
INFORMACIÓN:
Explica y aplica las medidas de dispersión. Calcula e interpreta la varianza y la desviación estándar. Calcula e interpreta el coeficiente de variación, asimetría y kurtosis.
Conceptos, propiedades, ventajas y desventajas, cálculo de datos agrupados y no agrupados de: Media aritmética, Mediana, Moda, Media Ponderada, Cuantiles y Kurtosis.
1.3.2. MEDIDAS DE DISPERSIÓN El análisis estadístico o el estudio de una serie estadística no puede quedarse sólo en el cálculo de las medidas de tendencia central o de posición tales como la media, mediana, moda, percentiles, ya que no estaríamos siendo absolutamente fieles a la realidad, suele existir datos extremos inferiores y superiores a la media aritmética, los cuales no están siendo bien representados por este parámetro, hay veces que la media, por sí sola, no es muy significativa. Además puede ocurrir que series absolutamente distintas pueden tener medias iguales y este hecho no significa que las distribuciones sean exactamente iguales. Por lo tanto es necesario profundizar en su estudio, para lo cual se requiere ver si los valores de la variable están muy o poco separados de la media aritmética. La media aritmética es más representativa cuanto más agrupados estén los valores de la serie respecto a ella y al revés y a la mayor o menor separación de los valores respecto a la media se le llama dispersión o variabilidad. 1.3.2.1 RANGO O RECORRIDO Es la medida de dispersión más sencilla ya que sólo considera los dos valores extremos de una colección de datos, sin embargo, su mayor utilización está en el campo de la estadística no paramétrica. Cálculo del Rango R = Xmax – Xmin 1.3.2.2 RECORRIDO SEMI INTERCUANTIL La desviación cuartil de un conjunto de datos está definida por: Q = (Q3 - Q1)/2 Donde Q3 y Q2 son el primer y tercer cuartil de los datos. A veces se usa el “Recorrido intercuartil Q3 – Q1 “ El recorrido semi-intercuartil o desviación cuartil, da una idea de la dispersión del 50% de los datos centrales. Suele utilizarse cuando la mediana es el índice más representativo. 1.3.2.3 DESVIACIÓN MEDIA La desviación media, mide la distancia absoluta promedio entre cada uno de los datos, y el parámetro que caracteriza la información. Usualmente se considera la desviación media con respecto a la media aritmética: Cuanto más alta es la desviación absoluta media mayor es la dispersión y menos representativa la media aritmética. Cálculo de la Desviación Media Para datos no agrupados n
DM
x i 1
i
Para datos agrupados m
x
n
DM
x i 1
i
x fi n Pág.
¡Exigencia académica para grandes cambios!
61
ESTADÍSTICA 1.3.2.4 VARIANZA La varianza es uno de los parámetros más importantes en estadística paramétrica, se puede decir que, teniendo conocimiento de la varianza de una población, se ha avanzado mucho en el conocimiento de la población misma. Numéricamente definimos la varianza, como desviación cuadrática media de los datos con respecto a la media aritmética. La varianza nos mide la mayor o menor representatividad de la media aritmética: - Si la varianza es grande nos indica gran dispersión, la media aritmética no es representativa. - Si casi todos los valores están muy cercanos a la media aritmética entonces la varianza se acercará a cero, con lo que se dice que la serie es concentrada. - La varianza nunca puede ser negativa. De su forma de cálculo se desprenden dos problemas: - Se expresa en unidades cuadradas (nuevos soles cuadrados, minutos cuadrados, etc.) - Si la media aritmética no es una buena medida de tendencia central, la varianza que se basa en ella tampoco será una buena medida de dispersión. a. Simbología S2 : Varianza de la muestra 2 : Varianza de la Población b. Cálculo de la Varianza b.1 Para Datos no Agrupados - Varianza de la Muestra
x n
s2
i 1
i
x
- Varianza de la Población
x N
2
2
n 1
i 1
x
2
i
N
Ejemplo: La inversión anual (en miles de nuevos soles) de un grupo de pequeñas empresas de la ciudad fueron: 10 13
12 17
40 21
10 14
30 15
14 19
16 27
20 22
25 14
28 11
30 13
26 15
30 18
10 20
18 30
17 39
Calcule la varianza Solución:
x n
Para aplicar:
s2
i 1
i
x
n 1
2
debemos calcular
X 20,125
Entonces aplicando a la fórmula de la varianza:
(10 20,125)^ 2 (12 20,125)^ 2 (40 20,125)^ 2 (10 20,125)^ 2 ... (39 20,125)^ 2 31 2018,390625 s2 31
s2
s 2 65,109375 miles de nuevos soles 2 b.2 Para datos agrupados
Pág. ¡Exigencia académica para grandes cambios!
62
ESTADÍSTICA - Varianza de la Muestra
x x f m
s2
- Varianza de la Población m
2
i 1
i
i
2
n 1
x i 1
fi 2
i
N
Ejemplo: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Calcule la varianza.
Nº de Pólizas 1
Solución:
x m
Para aplicar:
s2
i
i 1
Vendedores 2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Total
140
2
x fi debemos calcular
n 1
X 5.07
Completando la siguiente tabla para el cálculo de la varianza Nº de Pólizas 1 2 3 4 5 6 7 8 9
Vendedores 2 10 15 20 40 24 15 12 2
Total
140
x m
La varianza es:
s2
i 1
x f i
(Xi-X)^2 * fi 33.15 94.34 64.36 22.96 0.20 20.69 55.79 102.92 30.87 425.29
2
i
n 1
425.29 =3.06 139
Ejemplo: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule la varianza.
Pág. ¡Exigencia académica para grandes cambios!
63
ESTADÍSTICA Montos
Solución:
x m
Para aplicar:
s2
i
i 1
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Total
388
2
x fi debemos calcular
n 1
X 7344.59
Completando la siguiente tabla para el cálculo de la varianza Montos
Facturas
Xi
(Xi-MEDIA )^2 * fi
1 500 - 2 900
27
2200
714603769.2
2 900 - 5 700
58
4300
537632639.5
5 700 - 8 700
216
7200
4515753.91
8 700 - 11 000
52
9850
326408121.9
11 000 - 14 000
23
12500
611299802.2
14 000 - 17 000
12
15500
798128547.2
Total
388
2992588634
x m
La varianza es:
s2
i 1
x f i 2
i
n 1
2992588634 7732787 .17 387
1.3.2.5 DESVIACIÓN ESTÁNDAR O TÍPICA Para eliminar el problema de la elevación al cuadrado de la varianza, se realiza una transformación consistente en calcular la raíz cuadrada de la varianza con lo que obtendríamos la desviación estándar o típica De una Muestra De una Población
s s2
2
Con lo que la desviación estándar o típica vendrá dada en las mismas unidades que los valores de la variable. - La desviación estándar o típica siempre es positiva porque la varianza también lo es. - La desviación estándar o típica es la medida de dispersión óptima, más exacta, más estable y más utilizada, sirviendo de base para las medidas de asimetría, estadísticos típicas y correlación. - Cuanto más se acerca a cero la desviación más concentrada es la serie. - Suele decirse que cuando la desviación estándar o típica es menor que la media aritmética la serie es concentrada y sí la desviación estándar o típica es mayor que la media aritmética la serie es dispersa. Ejemplo : La inversión anual (en miles de nuevos soles) de un grupo de pequeñas empresas de la ciudad fueron: 10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17 13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39
Pág. ¡Exigencia académica para grandes cambios!
64
ESTADÍSTICA Calcule e interprete la desviación estándar Solución:
s s 2 65,109375 entonces s 8.069038047 Interpretación: La inversión promedio anual de las pequeñas empresas varían ± 8 069 nuevos soles Ejemplo 2: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Calcule e interprete la desviación estándar Nº de Pólizas 1
Vendedores 2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Total
140
Solución:
s s2
3.06 entonces s 1.75
Ejemplo: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete la desviación estándar Montos
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Total
388
Solución:
s s 2 7732787.17 entonces s 2780.79 1.3.2.6 COEFICIENTE DE VARIABILIDAD Con frecuencia nos interesa establecer comparaciones de la dispersión, entre diferentes muestras que posean distintas unidades de medida (por ejemplo, nuevos soles con dólares), las medidas de dispersión antes mencionadas no permiten realizar este tipo de comparaciones, pero es el coeficiente de variabilidad quien nos ayuda a realizar estas comparaciones. El coeficiente de variabilidad es una medida de dispersión relativa (sin unidades de medida) tiene en cuenta el valor de la media aritmética, para establecer un número relativo, que hace comparable el grado de dispersión entre dos o más variables, y se define como:
Pág. ¡Exigencia académica para grandes cambios!
65
ESTADÍSTICA
CV
S *100 X
Para determinar la homogeneidad (tiene menor variabilidad) de dos o más muestras que tienen diferente unidad de medida, se elige aquella que tenga el menor CV. Ejemplo: La inversión anual (en miles de nuevos soles) de un grupo de pequeñas empresas de la ciudad fueron: 10 12 40 10 30 14 16 20 25 28 30 26 30 10 18 17 13 17 21 14 15 19 27 22 14 11 13 15 18 20 30 39 Calcule e interprete el coeficiente de variación Solución: Para calcular el coeficiente de variación, debemos calcular la media y la desviación estándar, por los ejercicios anteriores tenemos:
X 20,125 y
s 8.069038047
Entonces
CV
8.069038047 *100 20,125
CV 40,09% Interpretación: La inversión de las pequeñas empresas en altamente dispersas (heterogénea) Ejemplo: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Calcular e interpretar el coeficiente de variación Nº de Pólizas 1
Vendedores 2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Total
140
Solución: Para calcular el coeficiente de variación, debemos calcular la media y la desviación estándar, por los ejercicios anteriores tenemos:
X 5.07 s 1.75
Entonces
Pág. ¡Exigencia académica para grandes cambios!
66
ESTADÍSTICA
CV
1.75 * 100 5.07
CV 34.52 Ejemplo: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete el coeficiente de variación.
Montos
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Total
388
Solución: Para calcular el coeficiente de variación, debemos calcular la media y la desviación estándar, por los ejercicios anteriores tenemos: X 7344 .59 y s 2780.79 Entonces
2780.79 * 100 7344.59 CV 37.86
CV
1.3.3. MEDIDAS DE ASIMETRÍA En la Parte I de Medidas de descriptivas, se mencionó la relación empírica de las tres medidas de tendencia central: Media, Mediana y Moda, la cual nos mostraba el tipo de distribución de una serie de datos. Ahora determinaremos esta relación pero mediante un indicador más representativo que se le conoce como el índice de Asimetría. El índice de asimetría de Pearson se define como
x Mo s En distribuciones asimétricas se verifica que : x Mo 3( x Me) , entonces el índice de asimetría As
es:
As
3( x Me) s
Interpretación: Si As = 0, La distribución es simétrica, esto es x Me Mo Si As > 0, La distribución es asimétrica positiva, esto es Mo Me x Si As < 0, La distribución es asimétrica negativa, esto es x Me Mo
Ejemplo: La inversión anual (en miles de nuevos soles) de un grupo de pequeñas empresas de la ciudad fueron:
Pág. ¡Exigencia académica para grandes cambios!
67
ESTADÍSTICA 10 12 40 10 30 14 16 20 25 13 17 21 14 15 19 27 22 14 Calcule e interprete el coeficiente de asimetría.
28 11
30 13
26 15
30 18
10 20
18 30
17 39
Solución: Para calcular el coeficiente de asimetría, debemos calcular la media, la mediana y la desviación estándar, por los ejercicios anteriores tenemos:
X 20,125
Me 18
s 8.069038047
Entonces:
3(20,125 18) 8,06903847 As 0,790057001
As
Interpretación: La distribución de la inversión anual de las pequeñas empresas muestra una ligera distribución asimétrica positiva, esto es que más del 50% de las pequeñas empresas invierten menos de 20 125 nuevos soles al año. Ejemplo 2: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Calcule e interprete el coeficiente de asimetría. Nº de Pólizas 1
Vendedores 2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Total
140
Solución: Para calcular el coeficiente de asimetría, debemos calcular la media, mediana y la desviación estándar, por los ejercicios anteriores tenemos: Me X y s Entonces:
As
As Ejemplo: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete el coeficiente de variación.
Pág. ¡Exigencia académica para grandes cambios!
68
ESTADÍSTICA Montos
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Total
388
Solución: Para calcular el coeficiente de asimetría, debemos calcular la media, mediana y la desviación estándar, por los ejercicios anteriores tenemos: Me y X s Entonces:
As
As EJERCICIO El gerente de ventas de una empresa dedicada al comercio de computadoras y afines, desea conocer la distribución de los volúmenes de venta en el último mes. Para obtener los datos necesarios se calculan los montos de ventas mensuales (marzo de 2014) de cada vendedor en las seis sucursales. A continuación se muestra los siguientes datos:
5,0
7,8
Número de vendedores 9
7,8
10,6
30
10,6
13,4
46
13,4
16,2
27
16,2
19,0
16
19,0
21,8
16
21,8
24,6
6
Ventas, en miles de dólares
Calcule la desviación estándar y los respectivos coeficientes de variación y de asimetría. Luego interprete. 1.3.4. MEDIDAS DE CURTOSIS La curtosis es la característica de una distribución de frecuencias en la cual se compara la dispersión de los datos observados cercanos al valor central con la dispersión de los datos cercanos a ambos extremos de la distribución, Se aplica cuando la distribución es simétrica. Se calcula mediante:
K
P75 P25 0.5 P90 P10
Interpretación: Si K tiende a 0 la distribución es normal o mesocúrtica Si K tiende a 0.5 es leptocúrtica Si K tiende a -0.5 es platicúrtica
Pág. ¡Exigencia académica para grandes cambios!
69
ESTADÍSTICA Ejemplo: Variable Discreta Se selecciona al azar 140 vendedores de una gran compañía de seguros. A continuación se muestra el número de pólizas vendidas durante una semana. Calcule e interprete el coeficiente de curtosis.
Nº de Pólizas 1
Vendedores 2
2
10
3
15
4
20
5
40
6
24
7
15
8
12
9
2
Total
140
Solución: Para calcular el coeficiente de curtosis, debemos calcular: P10 = P75= P25 =
P90 =
Entonces
K
K Ejemplo: Variable Continua El siguiente cuadro muestra las ventas registradas en 388 facturas de la Empresa Pasaly, calcule e interprete el coeficiente de curtosis. Montos
Facturas
1 500 - 2 900
27
2 900 - 5 700
58
5 700 - 8 700
216
8 700 - 11 000
52
11 000 - 14 000
23
14 000 - 17 000
12
Total
388
Solución: Para calcular el coeficiente de curtosis, debemos calcular: P10 = P75= P25 = Entonces:
P90 =
K
K
Pág. ¡Exigencia académica para grandes cambios!
70
ESTADÍSTICA Ejemplo Adicional: De los datos registrados sobre el turno mañana de una empresa.
i 1 2 3 4 5 6
Lim Inf 20.5 25.5 30.5 35.5 40.5 45.5
Lim Sup 25.5 30.5 35.5 40.5 45.5 50.5
Marca 23 28 33 38 43 48
f 1 3 0 2 20 4 30
Turno mañana h F 0.0333 1 0.1000 4 0.0000 4 0.0667 6 0.6667 26 0.1333 30
H 0.0333 0.1333 0.1333 0.2000 0.8667 1.0000
Se obtiene: Rango muestral:r = 50.5 – 20.5 = 20 minutos
1124.1667 38.7644 30 1 Varianza muestral: minutos2 Desviación estándar: s 6.2261 minutos 6.2261 CV 100% 15.1% 41.17 El coeficiente de variación es . s2
Calcule Ud, el Coeficiente de Asimetría y la Kurtosis. ACTIVIDAD N°4
1. La central telefónica de una empresa desea conocer el gasto mensual en que incurre debido a las llamadas que efectúan sus empleados luego de las 6 p.m., hora en que finalizan las labores. Para esto registra al azar y durante el mes de enero el tiempo de duración (en minutos) de las llamadas efectuadas entre las 6 p.m. y las 7 p.m. Los datos obtenidos, según el tipo de teléfono al que se llama, se encuentran en la hoja Llamadas. a. ¿Cuál es la duración mínima de una llamada hacia un teléfono celular para considerarla dentro del grupo del 15% de las llamadas que le ocasionan mayor gasto a la empresa? b. ¿Se puede afirmar que existe mayor homogeneidad en la duración de las llamadas realizadas hacia un teléfono celular en comparación a las realizadas hacia un teléfono fijo?
2. Una empresa ensambladora de productos electrónicos se encuentra evaluando la duración (en horas) de cierta marca de dispositivos electrónicos antes de utilizarlos. Se realizó el seguimiento a una muestra de 80 unidades. Los resultados obtenidos se encuentran en la hoja Duración y se muestran a continuación. i 1 2 3 4 5 6 7
Lim Inf 20 25 30 35 40 45 50
Lim Sup 25 30 35 40 45 50 55
f 8 12 12 18 14 11 5 80
F
a. Calcule las medidas de dispersión. b. La empresa descarta un 10% de unidades con menor duración. Halle la duración mínima que debe tener un componente para que sea de utilidad.
3. Los datos en la hoja Supermercados corresponden a los montos y el tipo de pago realizados por una muestra de clientes de una cadena de supermercados. Los directivos de esta empresa pidieron tomar la muestra para conocer el comportamiento de los pagos de sus clientes.
Pág. ¡Exigencia académica para grandes cambios!
71
ESTADÍSTICA a. Construya en un mismo gráfico los diagramas de cajas para los montos según el tipo de pago indicando la presencia de datos atípicos en la muestra. b. Determinar el tipo de simetría que presentan los montos según el tipo de pago según lo observado en el gráfico anterior. c. Indique que medio de pago es más homogéneo.
4. Textiles Enigma es un gran proveedor de fibras para industriales textiles en diversas partes del mundo y tiene un control de calidad estricto sobre la resistencia de sus fibras. Últimamente ha habido quejas de sus clientes sobre la irregularidad en la resistencia de dichas fibras debido a problemas de producción. El gerente de producción ha tomado los datos del equipo de control de calidad que realizó en pruebas de resistencia de fibras provenientes de las dos máquinas. Los resultados, expresados en kilogramos, fueron los siguientes: Máquina 1 1,19 1,34 1,43 1,45 1,52 1,3 1,9 1,9 2,0 2,09 2,12 2,13 2,30 2,40 2,52
a. b. c. d. e. f. g.
2,53 2,55 2,5 2,5 2,5 2,5 2,66 2,6 2,6 2,94 2,99 3,00 3,01 3,0 3,12
3,19 3,31 3,3 3,46 3,4 3,4 3,61 3,0 3, 1 3, 3, 4,00 4,43 4,63 5,0
Máquina 2 1,3 1,46 1,50 1,53 1,64 1,6 1, 1,9 2,14 2,14 2,14 2,1 2,21 2,24 2,2
2,29 2,35 2,36 2,41 2,42 2,42 2,4 2,50 2,53 2,54 2,63 2,2 2,3 2,3 2,4
3,64 3,66 3,9 3,9 4,00 4,00 4,01 4,13 4,32 4,34 4,46 4,52 4,64 4,5 5,4
2, 2,93 3,12 3,14 3,19 3,20 3,22 3,22 3,40 3,42 3,50 3,53 3,59 3,61 3,63
De acuerdo al propósito del gerente de producción, defina con precisión la población objetivo, la unidad de análisis, la variable, su tipo y su escala de medición. Elabore la tabla de distribución de frecuencias de cada muestra de tal manera que permita su comparación. Elabore los histogramas adecuadamente que permita la comparación de los datos de ambas muestras. Elabore comparativamente las ojivas de los datos. Si el rango de aceptación de resistencia de la fibra es entre 1,8 y 3,6 Kg. ¿qué porcentaje de la producción de cada máquina será aceptable? Calcule las medidas de dispersión de cada máquina. Elabore un breve informe donde señale las conclusiones de su análisis de los datos y de los gráficos.
Pág. ¡Exigencia académica para grandes cambios!
72
ESTADÍSTICA
UNIDAD DIDÁCTICA II
INFERENCIA ESTADÍSTICA INTRODUCCIÓN
Recordemos que los objetivos de la Estadística Descriptiva son obtener información a partir de un conjunto de datos, presentar dicha información de manera ordenada (cuadros y gráficos) que facilite la interpretación. Cabe preguntarse ahora ¿cómo relacionamos la información que obtenemos de la Estadística Descriptiva con el fenómeno aleatorio real que estamos observando, teniendo en cuenta que el estudio solo es referente a unos cuantos datos (muestra) y no a todos (población)? Se trata de hacer una generalización (inferencia) de la información obtenida a través de una muestra, a una población. “La Inferencia Estadística es la parte de la estadística matemática que se encarga del estudio de los métodos para la obtención del modelo de probabilidad (forma funcional y parámetros que determinan la función de distribución) que sigue una variable aleatoria de una determinada población, a través de una muestra (parte de la población) obtenida de la misma”1 Se iniciará el estudio de esta segunda unidad didáctica como la Teoría de Muestreo que está orientada a desarrollar destrezas y obtener conocimientos para lograr una muestra representativa. El segundo tema de esta unidad se refiere a la Estimación de Parámetros, en el que se abordará el proceso de utilizar datos muestrales para estimar los valores de parámetros desconocidos de una población. El cuarto tema es referente a las pruebas de hipótesis, cuyo objetivo es evaluar proposiciones o afirmaciones acerca de los valores de los parámetros de la población.
APRENDIZAJES ESPERADOS Define los conceptos básicos de muestreo e identifica los diversos métodos de muestreo. Usa datos muestrales para estimar los parámetros poblacionales de medias, proporciones y varianzas. Conoce el procedimiento estadístico para probar hipótesis acerca de medias y proporciones. CONTENIDOS Tema 1: Métodos de Muestreo Tema 2: Estimaciones Tema 3: Prueba de Hipótesis
1
http://es.wikipedia.org/wiki/Estad%C3%ADstica_inferencial
Pág. ¡Exigencia académica para grandes cambios!
73
ESTADÍSTICA TEMA 01 SESIÓN VIRTUAL:
LOGRO:
INFORMACIÓN:
MÉTODOS DE MUESTREO
Explicar la razón por la que se realiza el muestreo. Conoce las ventajas y desventajas del muestreo Define los distintos tipos de muestreo.
Definiciones básicas, muestreos probabilísticos: aleatorio simple, estratificado, sistemático, conglomerados. Muestreo no probabilístico.
2.1 MÉTODOS DE MUESTREO Las investigaciones estadísticas de una población se basan generalmente en el análisis de una muestra de ésta, debido a muchos motivos, por ser una población grande, por los costos, etc., por lo tanto es importante que la muestra elegida sea representativa con la finalidad de realizar inferencias a la población de donde fue seleccionada y que sus resultados sean confiables, entonces nos planteamos la pregunta ¿de qué manera se debe seleccionar la muestra?, ¿qué criterios se debe tener en cuenta para seleccionar un método de selección de muestra?, etc. Responder a estas preguntas es el objetivo de este capítulo. Para introducirnos en la Teoría de Muestreo es importante tener claros algunos conceptos básicos e incluirlos en nuestro lenguaje. 2.1.1 Conceptos Básicos 2.1.1.1 Muestreo: Son métodos empleados para la selección de elementos representativos de la población que conformarán una muestra. 2.1.1.2 Unidades de muestreo: Son aquellas que contienen las unidades de análisis de la población y que se utilizarán para confeccionar o seleccionar la muestra. 2.1.1.3 Marco Muestral Es la lista de unidades o elementos del muestreo. En ella se debe definir y enumerar los elementos sobre los cuales se realizan las inferencias estadísticas en el muestreo probabilístico y debe ser tal que: - Cada elemento de la población figure en él. - Cada elemento de la población figure una sola vez. - Sólo contenga los elementos de la población. Es importante la construcción de un marco muestral lo más perfecto posible a fin de que exista una correspondencia biunívoca entre las unidades muestrales poblacionales y las listas físicas que lo conforman. Entre los factores que contribuyen a distorsionar la calidad de un buen marco muestral están: a. Elementos faltantes. b. Unidades ocultas por estar pareadas con otras. c. Unidades muestrales repetidas. d. Elementos extraños. Entre algunos ejemplos de marcos muestrales pueden ser: mapas, listas de clientes, listado de empresas, guía de teléfonos, etc. 2.1.1.4 Nivel de Confianza: Es la probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro. Se simboliza por (1 - ).
Pág. ¡Exigencia académica para grandes cambios!
74
ESTADÍSTICA 2.1.1.5 Diseño Muestral: Es un conjunto de procedimientos que sirven para determinar la muestra, el tamaño de la muestra y la confiabilidad de ésta. Se debe de seguir los siguientes pasos: - Definir la población: incluye la especificación de la unidad de muestreo, el alcance geográfico de la investigación y el momento y el período de tiempo en que se realiza el estudio. - Identificar el marco muestral. - Determinar el método de muestreo: Se debe tener en cuenta las características de la población, la forma de recolección de información. - Determinar el tamaño de la muestra. - Selección material de la muestra: Comprende la elección de los componentes de la muestra (se suele hacer mediante números aleatorios, sistemática, etc.), además se debe localizar materialmente la muestra, es decir la localización física de las unidades. - Decidir el trato que se ha de dar a la falta de respuestas: La falta de respuestas es un problema serio, porque en muchos casos puede sesgar los resultados, para reducirlo al mínimo se puede intentar varios procedimientos: ● Mejorar el diseño de la investigación para reducir las negativas. ● Repetir los intentos. ● Estimar los efectos de la falta de respuesta en lo que respecta a la calidad de la información. 2.1.1.6. Errores en el Muestreo a. Error muestral o aleatorio: Es el error que se comete debido al hecho de que se obtienen conclusiones sobre la población a partir de la observación de sólo una muestra de ella. Se define como la diferencia entre un estadístico y su parámetro correspondiente y es el error máximo estadístico de la muestra, válido para el conjunto de todas las distintas muestras que se pueden tomar de la misma población. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varían muestra a muestra). Se controla, se formula y se estima mediante el diseño de la muestra. b. Error no Muestral o Sistemático: Estimación sesgada de población debido a que la muestra ha sido extraída de un marco muestral incompleto, porque algunas personas se negaron a participar en la encuesta, en la recolección de datos, en la elaboración de los instrumentos de recolección, en el análisis de datos, etc. Sólo se controla mediante un sistema de prevención, capacitación e inspección de todo el proceso de la encuesta. 2.1.2 Muestreo El muestreo son métodos empleados para la selección de elementos representativos de la calidad y condiciones medias de la población que conformarán una muestra. Este muestreo puede ser: probabilístico y no probabilístico. Su función básica es determinar qué parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población. 2.1.2.1 Ventajas del Muestreo Las ventajas de estudiar una población a partir de sus muestras son principalmente: - Costo reducido Si los datos que buscamos los podemos obtener a partir de una pequeña parte del total de la población, los gastos de recolección y tratamiento de los datos serán menores. - Mayor rapidez
Pág. ¡Exigencia académica para grandes cambios!
75
ESTADÍSTICA
-
Debido a que se toma una muestra de la población la recolección, el procesamiento de los datos se realizarán con mayor rapidez y por lo tanto los resultados finales del estudio podrán obtener con oportunidad. Más posibilidades Al realizar un estudio sobre toda la población llevaría a la destrucción misma de la población, por ejemplo si se analiza el tiempo de duración de cierto tipo de bombillas, no es posible en la práctica destruirlas todas para conocer su vida media, ya que no quedaría nada que vender. Es mejor destruir sólo una pequeña parte de ellas y sacar conclusiones sobre las demás.
2.1.2.2 Criterios para determinar la aceptabilidad de un Método Muestral Se ha demostrado repetidamente en aplicaciones prácticas que los métodos modernos de muestreo pueden proporcionar datos confiables de manera eficiente y económica. Sin embargo, aunque una muestra contenga una parte de la población, no se puede llamar una muestra a cualquier grupo de miembros de una población por el simple hecho de formar parte de dicha población. Para que sea aceptable para propósitos estadísticos, una muestra debe representar la población y debe tener confiabilidad medible. Además, el plan de muestreo debe ser práctico y eficiente. A continuación se presenta algunos criterios para aceptar un método muestral: a. Probabilidad de Selección de cada Unidad. Se debe seleccionar la muestra para que represente adecuadamente a la población que cubre. Esto significa que cada unidad (hogar, persona o cualquiera otra unidad) debe tener una probabilidad de selección mayor que cero. b. Confiabilidad Medible Una de las condiciones más importante del muestreo probabilístico es la capacidad de poder medir la confiabilidad de las estimaciones provenientes de la muestra. Es decir, además de proporcionar estimaciones sobre las características de la población (totales, promedios, porcentajes, etc.), la muestra debe arrojar medidas sobre la precisión de estas estimaciones. Estas medidas de precisión pueden utilizarse para indicar el error máximo que se puede esperar de dichas estimaciones si los procedimientos se siguen de acuerdo a las especificaciones y si la muestra es moderadamente grande. No se puede estimar la precisión de las estimaciones si la selección aleatoria no se lleva acabo de manera tal que se conozca de antemano la probabilidad de selección de cada unidad seleccionada. c. Viabilidad Una tercera característica es que el plan muestral sea práctico. Debe ser lo suficiente simple y directo para que pueda implementarse de la manera en que se planificó. Un plan muestral, por más atractivo que se vea escrito en papel, es sólo útil si se puede implementar en el campo. d. Economía y Eficiencia Para terminar, el diseño muestral debe ser eficiente. Entre todos los métodos muéstrales que satisfacen los tres criterios mencionados anteriormente, vamos naturalmente a elegir el método que proporcione la información requerida a un costo mínimo. Aunque esta no sea una característica esencial de un plan muestral aceptable, es claramente una característica muy deseable. Esta característica presupone que se utilizarán de la manera más eficiente posible todas las instalaciones y recursos, tales como oficinas, mapas, datos estadísticos, conocimientos personales, teoría del muestreo, etc. Para la selección de una muestra se cuenta con diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos. 2.1.2.3 El proceso de muestreo: Las principales etapas para seleccionar una muestra son las siguientes: - Definición de la Población.
Pág. ¡Exigencia académica para grandes cambios!
76
ESTADÍSTICA - Selección del Marco Muestral. - Definición de las unidades muestrales. - Elección del método de muestreo. - Determinación del tamaño de muestra. - Selección de la muestra. 2.1.3 Métodos de Muestreo Probabilísticos Los métodos de muestreo probabilísticos se basa en que todos los elementos de la población tienen una probabilidad conocida de ser elegidos para formar parte de la muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos: 2.1.3.1 Muestreo aleatorio simple: Es el más importante y el más sencillo, en este método cada elemento de la población tiene la misma probabilidad de ser elegido, la selección se realizan con reemplazo, de manera que la población es idéntica en todas las extracciones, o sea, que la selección de un individuo no debe afectar a la probabilidad de que sea seleccionado otro cualquiera aunque ello comporte que algún individuo pueda ser elegido más de una vez ("se hacen tantas papeletas numeradas como individuos hay, se coge una y se devuelve, se vuelve a coger otra y se devuelve, etc" ). En preferible aplicar este tipo de muestreo en poblaciones homogéneas y pequeñas. a. Procedimiento - Se asigna un número a cada individuo de la población. - A través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra requerido. Este procedimiento es atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. b. Ventajas: - Sencillo y de fácil comprensión. - Cálculo rápido de medias y varianzas. - Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos. c. Desventajas: - Requiere que se posea de antemano un listado completo de toda la población. - Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente. 2.1.3.2 Muestreo aleatorio sistemático: Este procedimiento exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k=N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. El riesgo se este tipo de muestreo está en los casos en que se dan periodicidades en la población ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la población. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.
Pág. ¡Exigencia académica para grandes cambios!
77
ESTADÍSTICA a. Procedimiento: - Conseguir un listado de N elementos. - Determinar un tamaño de muestra n. - Definir un intervalo de salto k; K=N/n. - Elegir un número aleatorio, r, entre 1 y k (r=arranque aleatorio). - Seleccionar los elementos de la lista. b. Ventajas: - Fácil de aplicar. - No siempre es necesario tener un listado de toda la población. - Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos. c. Desventajas: - Si la constante de muestreo está asociada con el fenómeno de interés, se pueden hallar estimaciones sesgadas. 2.1.3.3 Muestreo aleatorio estratificado: Es cuando nos interesa que la muestra tenga la misma composición de la población grande y heterogénea, la cual se divide en clases o estratos homogéneos y las características de estrato a estrato deben ser heterogéneos. Si por ejemplo la población está compuesta por mujeres y hombres, esta puede ser dividida en los estratos Mujeres y Hombres. Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, el estado civil, etc). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el sistemático para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). La distribución de la muestra en función de los diferentes estratos se denomina afijación, y puede ser de diferentes tipos: - Afijación Simple: A cada estrato le corresponde igual número de elementos muestrales. - Afijación Proporcional: La distribución se hace de acuerdo con el peso (tamaño) de la población en cada estrato. - Afijación Óptima: Se tiene en cuenta la previsible dispersión de los resultados, de modo que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se suele conocer la desviación. a. Procedimiento - Se divide la población en grupos homogéneos dentro de ellos, pero heterogéneos de grupo a grupo - Se selecciona una muestra de cada grupo utilizando un muestreo aleatorio simple o muestreo sistemático. b. Ventajas: - Tiende a asegurar que la muestra represente adecuadamente a la población en función de unas variables seleccionadas. - Se obtienen estimaciones más precisas. c. Desventajas: - Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación. - Los análisis son complicados, en muchos casos la muestra tiene que ponderarse (asignar pesos a cada elemento). 2.1.3.4 Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muestrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos
Pág. ¡Exigencia académica para grandes cambios!
78
ESTADÍSTICA de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc, son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales, cuando los conglomerados son área geográficas suele hablarse de "muestreo por áreas". a. Procedimiento - Dividir a la población grande y heterogénea en sub-grupos heterogéneos llamados conglomerados que son convenientes para el muestreo. - Seleccionar una muestra de los grupos utilizando un muestreo aleatorio simple o sistemático. - Finalmente, tomar todos los elementos o una muestra de ellos al azar o por muestreo sistemático de los grupos seleccionados para obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados, cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria. b. Ventajas: - Es muy eficiente cuando la población es muy grande y dispersa. Reduce costos. - No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo. c. Desventajas: - El error estándar es mayor que en el muestreo aleatorio simple o estratificado. - El cálculo del error estándar es complejo 2.1.3.5 Muestreo Polietápico o multietápico Muestreo en el que se procede por varias etapas: se obtiene una muestra de unidades primarias (UPM), más amplias que las siguientes; de cada unidad primaria se toman, para una submuestra, unidades secundarias (USM), y así sucesivamente hasta llegar a las unidades últimas o más elementales. Se le puede considerar como una modificación del muestreo por conglomerados cuando no forman parte de la muestra elementos o unidades de todos los conglomerados, sino que, una vez seleccionados estos, se efectúan submuestras dentro de cada uno de ellos. 2.1.3.6 Muestreo Doble Muestreo que consta de dos fases; en la primera, de las cuales se toma una muestra muy amplia a la que se analiza algún aspecto que es fundamental para la segunda fase; esta segunda fase, la constituye un muestreo cualquiera de la primera. 2.1.4 Métodos de muestreo no probabilísticos A veces, el muestreo probabilístico resulta excesivamente costoso y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la población tienen una probabilidad conocida de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. 2.1.4.1 Muestreo por cuotas: Consiste en dividir a la población en estratos o categorías, y se asigna una cuota para las diferentes categorías y, a juicio del investigador, se selecciona las unidades de muestreo. La muestra debe ser proporcional a la población, y en ella deberán tenerse en cuenta las diferentes categorías. El muestreo por cuotas se presta a distorsiones, al quedar a criterio del investigador la selección de las categorías. Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la población y/o de los individuos más "representativos" o "adecuados" para los fines de la investigación. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carácter de aleatoriedad de aquél. En este tipo de muestreo se fijan unas "cuotas" que consisten en un número de individuos que reúnen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 años, de sexo femenino y residentes en el Tambo. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas características. Este método se utiliza mucho en las encuestas de opinión.
Pág. ¡Exigencia académica para grandes cambios!
79
ESTADÍSTICA
2.1.4.2 Muestreo por conveniencia Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusión en la muestra de grupos supuestamente típicos. La selección de las unidades de muestra se deja principalmente al entrevistador. Con frecuencia se selecciona a los entrevistados porque se encuentran en el lugar adecuado en el momento oportuno. Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto.
2.1.4.3 Muestreo por juicio Los elementos de la población se seleccionan con base a juicio del investigador. Con su juicio o experiencia, elige los elementos que incluirá en la muestra, por que cree que son representativos de la población de interés o son de alguna manera apropiados. El caso más frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fácil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios. 2.1.4.4 Bola de nieve Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc. También este tipo de muestreo se inicia con una muestra tomada al azar pero que luego se va depurando por referencia de los primeros contactados, de ese modo se pueden estudiar diferentes poblaciones en relación al producto que se esté presentando. Este método por ende permite evaluar las "subpoblaciones específicas" que muchas veces se descartan porque tienen un volumen muy pequeño en cuanto a población y sería antieconómico desarrollar productos para poca gente. ACTIVIDAD N°5 PARTE I: Construya un organizador de conocimientos sobre el tema MÉTODOS DE MUESTREO PARTE II: Elabore una ficha técnica sobre el tema de investigación que está trabajando. Aplique el número de encuestas indicado por el docente y entréguelas anilladas y con su respectiva evidencia.
Pág. ¡Exigencia académica para grandes cambios!
80
ESTADÍSTICA
TEMA 02 SESIÓN IX y X
ESTIMACIÓN DE PARÁMETROS Define una estimación puntual y por intervalo. Construye el intervalo de confianza para la media poblacional. Construye el intervalo de confianza para la proporción poblacional. Construye el intervalo de confianza para la varianza poblacional. Calcula el tamaño de muestra requerido para la estimación por intervalo.
LOGRO:
INFORMACIÓN:
Estimación: Conceptos básicos, distribución normal, t-student y chicuadrado, estimación por intervalos de medias, proporciones y varianzas, tamaños de muestra.
2.2 ESTIMACIÓN DE PARÁMETROS Cuando se selecciona una muestra la intención primaria es conocer y analizar a la población de donde fue seleccionada, entonces es a partir de nuestros resultados muestrales que estimamos los resultados de la población a este proceso se le llama la Estimación de parámetro, siendo este uno de los métodos más importantes de la estadística inferencial.
2.2.1 Conceptos Básicos 2.2.1.1 Estimador Sea X una variable aleatoria cuya función de probabilidad (o densidad de probabilidad si es continua) depende de unos parámetros 1 ,..., k desconocidos. Representamos mediante
X 1 ,..., X n una muestra aleatoria simple de la variable. Se denomina estimador de un parámetro
θ i , a cualquier variable aleatoria θˆ i
que se exprese en función de la muestra
aleatoria y que tenga por objetivo aproximar el valor de θ i . Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unívocamente de los valores de la muestra observados, la elección de la muestra es un proceso aleatorio. 2.2.1.2 Estimación Una vez que la muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra. Se puede estimar mediante: - Estimación puntual: Consiste en determinar un posible valor para el parámetro poblacional. - Estimación por intervalos: Consiste en determinar un posible rango de valores o intervalo, en los que pueda precisarse, con una determinada probabilidad, que el valor de un parámetro. 2.2.1.3 Estimación por intervalos de confianza La estimación confidencial o por intervalos consiste en determinar un posible rango de valores o intervalo, en los que pueda precisarse, con una determinada probabilidad, que el valor de un parámetro se encuentra dentro de esos límites. La Estimación por intervalos consiste en asociar a cada muestra un intervalo que se sospecha que debe contener al parámetro. A éste se le denomina intervalo de confianza
Pág. ¡Exigencia académica para grandes cambios!
81
ESTADÍSTICA Evidentemente esta técnica no tiene por qué dar siempre un resultado correcto. A la probabilidad de que hayamos acertado al decir que el parámetro estaba contenido en dicho intervalo se la denomina nivel de confianza. También se denomina nivel de significación a la probabilidad de equivocarnos. A continuación recordaremos las tres distribuciones de probabilidad que utilizaremos para analizar los distintos niveles de confianza para el cálculo de los intervalos de confianza. 2.2.1.3.1 Distribución de probabilidad normal Función densidad 1 x
1 f ( x) e 2 2
2
Se dice que la variable aleatoria X sigue una distribución normal con parámetros y Se denota X ~ N (, 2) Características
f(x)
x
Tiene forma de campana. Es simétrica, por lo que las medidas de tendencia central coinciden. Su rango va de – a + .
2.2.1.3.2 Distribución t-student Función densidad
k 1 k 1 2 2 t 2 1 f (t ) k k k 2
Se dice que la variable aleatoria t sigue una distribución t con k grados de libertad. Para un valor de la variable aleatoria t,k es tal que el área a su derecha bajo la curva de la distribución t con k grados de libertad es igual a .
P(T t ,k )
Pág. ¡Exigencia académica para grandes cambios!
82
ESTADÍSTICA
Características
t
Simétrica y forma de campana Se extiende de - a + La gráfica de la distribución t es parecida a la distribución normal, se diferencian en: En los extremos la distribución t está por encima de la normal estándar. En el centro la distribución t está por debajo de la normal estándar. Cada valor de grado de libertad determina una distribución t distinta. Cuando los grados de libertad son altos, los valores de la distribución t se asemejan con los valores de la distribución normal estándar (n>29).
Media:
T E T 0
Varianza:
T2
k k 2
2.2.1.3.3 Distribución chi-cuadrado Función de densidad
1 (1 / 2) x k / 2 1e f x (1 / 2) 0
(1 / 2 ) x
para x 0 para cualquier otro caso
Se dice que X tiene una distribución chi cuadrado con k grados de libertad. Se denota X ~ 2 (k) Para un valor de la variable aleatoria 2;k es tal que el área a su derecha bajo la curva de la distribución 2 con k grados de libertad es igual a .
P( 2 2 ,k )
f (x)
Características Se extiende de 0 a +, no toma valores negativos La gráfica de la distribución chi cuadrado tiene sesgo a la derecha Cada valor de grado de libertad determina una distribución chi cuadrado distinta. A medida que los grados de libertad aumentan, la distribución tiende a ser simétrica.
Pág. ¡Exigencia académica para grandes cambios!
83
ESTADÍSTICA 2.2.1.4 Interpretación del nivel de confianza
El gráfico ilustra la interpretación del nivel de confianza para el intervalo de confianza para la media de una distribución normal con varianza conocida. Para los distintos posibles valores de la media, representados mediante su distribución muestral, obtenemos distintos intervalos de confianza. La mayor parte incluye al verdadero valor del parámetro, pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de confianza es del 95%. En la práctica disponemos de una única repetición del experimento, y por tanto de un único intervalo de confianza, el señalado en negro en el gráfico, por ejemplo. Confiamos en que nuestro intervalo sea de la mayoría que contiene al verdadero valor objetivo aunque no tenemos la seguridad de que sea así, tenemos concretamente un riesgo del 5% de equivocarnos. 2.2.2 Intervalo de confianza para una media poblacional 2.2.2.1 Si se conoce la varianza poblacional Cuando queremos estimar la media de la población
poblacional, el estadístico que más nos va a ayudar es confianza al (1- ) % está dado por:
x z1
2
n
ˆ x z
pero conociendo su varianza ,
entonces el intervalo de
n
expresado en forma resumida:
x z1
2
n
Este intervalo es válido también cuando la población se distribuye como una normal con varianza poblacional conocida y el tamaño de muestra es n≥2. Los casos anteriores se presentarán poco en la práctica, ya que lo usual es que sobre una población quizás podamos conocer si se distribuye normalmente, pero el valor exacto de los parámetros y no son conocidos. De ahí nuestro interés en buscar intervalos de confianza para ellos.
Pág. ¡Exigencia académica para grandes cambios!
84
ESTADÍSTICA 2.2.2.2 Si se desconoce la varianza poblacional Para un tamaño de muestra grande (n≥30) el estadístico que más nos va a ayudar es el intervalo de confianza al (1-)% estará dado por:
x
z1 s 2
n
ˆ x
X,
z1 s 2
n
Pero para estimar una media poblacional cuando la población de donde se seleccionó la muestra es normal y con un tamaño de muestra pequeño (n<30). Su intervalo de confianza al (1-)% es:
t1
x
2
, ( n 1)
n
s
ˆ x
t1
2
, ( n 1)
s
n
Si el muestreo es sin reemplazo y la fracción de muestreo
n 0,05 , el error estándar será: N
( z / 2 ót / 2 ).s N n y los límites de confianza se calculan con la siguiente fórmula. N 1 n
x ( z / 2 ót / 2 ).
s N n s N n x ( z1 / 2 ót1 / 2 ). n N 1 n N 1
2.2.3 Intervalos de confianza para una proporción poblacional Sean X 1 ,..., X n B( p) nuestra de una población con distribución de Bernoulli. Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la suma de éstas, lo que nos proporciona una distribución Binomial: X X 1 ... X n B(n, p) y tomar como estimador suyo la variable aleatoria. Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas
pˆ . El intervalo de confianza al (1-)% está dado por: p z1
2
p(1 p) p(1 p) pˆ p z1 2 n n
en forma abreviada es:
p z1
2
p(1 p) n
Si el muestreo es sin reemplazo y la fracción de muestreo confianza se calculan con la siguiente fórmula.
pˆ Z1 / 2
n 0,05 . N , los límites de
pˆ qˆ N n pˆ qˆ N n p pˆ Z1 / 2 n N 1 n N 1
2.2.4. Intervalo de confianza para una Varianza Poblacional El intervalo de confianza al nivel (1-)% para la varianza de una distribución normal (cuyos parámetros desconocemos) está dado por:
Pág. ¡Exigencia académica para grandes cambios!
85
ESTADÍSTICA
(n 1)s 2
12
2
(n 1)s 2
2;n 1
2
2;n 1
EJERCICIOS RESUELTOS 1. Un artículo publicado en un diario local indica que el tiempo promedio empleado por los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. es de 7,75 horas. Suponga que el tiempo tiene una distribución aproximadamente normal con desviación estándar de 3,45 horas. Para corroborar dicha afirmación un grupo de estudiantes selecciona una muestra de 180 hogares de L.M. y obtuvo que el tiempo promedio fue de 7,42 horas por semana. ¿Será cierta la afirmación publicada por el diario local al 96% de confianza? Solución: i) La estimación puntual de es
x =7,42 siendo n=180 Z1 / 2 = Z(0.98) = 2,05
ii) 1- = 0,96 = 0.04 entonces:
como:
iii)
x Z1 / 2
n
x Z1 / 2
IC ( ) 7,42 (2,05)
n
3,45 3,45 7,42 (2,05) 180 180 6,8928 7,9472
iv) Interpretación: Con un 96% de confianza entre 6,8928 y 7,9472 horas por semana se encontrará la media del tiempo empleado por todos los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. por lo tanto es cierta la afirmación publicada en el diario local. 2. Se tienen 50 000 trabajadores de construcción civil empadronados en el Ministerio de Trabajo, de los cuales se tomó una muestra aleatoria de 400 y se analizó el ingreso diario. Si la media de los trabajadores encuestados es de 74 soles diarios con una desviación estandar de 10.68 soles, construya un intervalo de confianza del 90% para el ingreso diario de todos los trabajadores de construcción civil. Solución i) x =74; n=400 ;N=50 000 y s=10.68 ii) 1- = 0,90 = 0.1 entonces: Z1 / 2 = Z(0.90) = 1.645 iii)
x Z1 / 2
n
N n x Z1 / 2 N 1 n
N n N 1
10.68 50000 400 10.68 50000 400 x 74 (1.645) x 50000 1 50000 1 400 400 v) IC ( ) 73.13 74.87 iv)
IC ( ) 74 (1.645)
Pág. ¡Exigencia académica para grandes cambios!
86
ESTADÍSTICA 3. El jefe del área de prensa de un diario desea evaluar la habilidad de su equipo de trabajo en el digitado de una misma noticia. Para realizar dicho estudio selecciona al azar una muestra aleatoria de redactores obteniendo los siguientes resultados (en minutos): 3,2 6,3
4,8 7,9
5,3 8,2
9,1 7,9
6,3 6,9
8,2 9,3
6,5 8,6
9,6 6,8
10,3 10,1
8,6 9,0
Asumiendo que los tiempos se distribuyen normalmente. Halle e interprete un intervalo del 95% de confianza para el tiempo medio utilizado en el tipeado de una noticia. Solución: i) La estimación puntual para es x =7,645 siendo s= 1.8597 ii) Como el nivel de confianza es 95%, t /2;n 1 =2.0930 iii)
IC ( ) 7,645 2,0930
(1,8597 ) (1,8597 ) 7,645 2,0930 20 20 6.7746 8.1130
iv) Interpretación: Con un 95% de confianza entre 6,7746 y 8,1130 minutos se tiene la media del tiempo utilizado por todos los redactores en el digitado de una noticia. 4. Pamela, estudiante de estadística para Ciencias de la Empresa piensa que el gasto promedio semanal en fotocopias de los estudiantes de su facultad es de 3.5 soles. Para verificar si es cierto lo que está pensando ha elegido al azar una muestra de 9 estudiantes de un total de 120 estudiantes que llevan el curso de estadística para comunicadores, resultando los siguientes gastos: 3,5
2,5
1,9
1,7
2,5
3,4
2,9
1,6
1,5
Si la variable aleatoria objeto de estudio sigue una distribución normal. Con un intervalo de confianza del 96% para la media del gasto semanal en fotocopias por estudiante ¿será cierto lo que piensa Pamela? Solución: i) n=9; N=120; 1-α=0.96 ii) x =2.3889 siendo s= 0.7639 y n/N=0.0758>0.05 iii)
t /2;n1 =2.44898
iv)
N n n 1; N 1 2 0,7639 120 9 2,3889 2,44898 120 1 9
IC ( ) x t
s n
1,7866 2,9912 v) Conclusión: Con un nivel de confianza del 96% se puede decir que el gasto promedio semanal en fotocopias de los estudiantes de su facultad es menor a 3.5 soles, por lo que podríamos decir que lo que piensa Pamela no es cierto. 5. Un fabricante de baterías para automóviles afirma que sus baterías durarán, en promedio, tres años con una varianza de un año. Si cinco de estas baterías tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 2 4.2 años, construya un intervalo de confianza del 95% para y decida si la afirmación del fabricante de que = 1 es válida. Suponga que la población de duraciones de las baterías se distribuye de forma aproximadamente normal. 2
Solución
Pág. ¡Exigencia académica para grandes cambios!
87
ESTADÍSTICA i) s2 = 0,815, n=5 ii) El valor X21-α/2 , es un valor X2 con 5-1 grados de libertad, que deja un área de 0,025 a la izquierda y por lo tanto un área de 0,975 a la derecha, es X20,975 = 0,484; de la misma forma, el valor X2α/2 es igual a X20,025 = 11,143.
(5 1)(0.815) (5 1)(0.815) 2 11.143 0.484 2 iv) 0.3 6.7 iii)
v) Interpretación: Con 95% de confianza entre 0,3 y 6,7 se encontrará la varianza de la duración de las baterías. Sí es posible considerar como válida la afirmación del fabricante porque el intervalo hallado contiene a la unidad. 2.2.8 Determinación del Tamaño de Muestra Existen tres factores que determinan el tamaño de una muestra; ninguno tiene alguna relación directa con el tamaño de la población. Estos son: - El grado de confianza elegido. - El máximo error permitido. . La variación de la población. 2.2.8.1 Muestreo Aleatorio Simple a. Para estimar la media poblacional Población infinita
z n 2 E 2
Otra forma para calcular es mediante:
2
n
z 2 2 N E 2 ( N 1) z 2 2
Ajuste de Tamaño de muestra para población finita
n
n0 n 1 0 N
Donde: E: Es el error permitido; Z: El valor estándar normal asociado con el grado de confianza elegido, : La desviación de la población, obtenida de estudios anteriores, experiencias previas o se puede estimar la desviación estándar muestral mediante un estudio piloto no: Tamaño de muestra calculada de una población infinita N: Tamaño de población Se dice que una población es finita si la relación n/N > 5%
2.2.8.2 Para estimar la proporción poblacional Población infinita
z 2 pq n 2 E Donde: E: Z, P:
población finita
z 2 pqN n 2 E ( N 1) z 2 pq
Es el error permitido; El valor estándar normal asociado con el grado de confianza elegido, La proporción de éxito de la población, obtenida de estudios anteriores, experiencias previas o se puede estimar la proporción de éxito muestral mediante un estudio piloto.
Pág. ¡Exigencia académica para grandes cambios!
88
ESTADÍSTICA q: N:
La proporción de fracaso de la población se obtiene por complemento de p, esto q=1–p Tamaño de población EJERCICIOS RESUELTOS
6. Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable aleatoria con distribución normal. Si se supone que la desviación típica del peso es de 0,5 kg. Determine el tamaño de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95 de que el estimado y el parámetro se diferencien modularmente en menos de 0,1 kg. Solución i) e=0.1; ii) Z1 1,96
0.5; 0.05
2
0,51,96 iii) n 96,4 0,1 2
iv) Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se debe aproximar por exceso. El tamaño de muestra sería de 97. 7. En un lote de frascos para medicina, con una población de 8000 unidades, se desea estimar la media de la capacidad en centímetros cúbicos de los mismos. A través de un premuestro de tamaño 35 se ha estimado que la desviación estándar es de 2 centímetros cúbicos. Si queremos tener una precisión 0.25 cm3, y un nivel de significancia del 5%. ¿De que tamaño debe de ser la muestra? Solución i) e=0.25 cm3; ii) Z1 1,96
2cm3 ; 0.05
2
iii)
n
iv)
n
v)
n
N . 2 Z 2 2 Ne 2 Z 2 2 8000 (2) 2 (1.96) 2 8000 (0.25) 2 (2) 2 (1.96) 2
122931 .2 239 515.37
vi) Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo válidos. 8. En una investigación, se desea determinar en que proporción los niños de una región toman leche en el desayuno. Si se sabe que existen 1500 niños y deseamos tener una precisión del 10 %, con un nivel de significancia del 5%. ¿De que tamaño debe de ser la muestra? Solución 0.05 i) N=1500; e=10%=0.1; ii) p = 0.5 y q = 0.5 iii) Z1 1,96 2
iv)
n
N . p.q.Z2 2 N .e 2 p.q.Z2 2
1500 (0.5)(0.5)(1.96) 2 1500 (0.1) 2 (0.5)(0.5) / 1.96) 2 vi) n 90 . Se deben muestrear 90 niños. v)
n
Pág. ¡Exigencia académica para grandes cambios!
89
ESTADÍSTICA EJERCICIOS PARA LA CLASE 1. Una empresa fabrica focos que tienen una duración aproximadamente normal con desviación estándar de 40 horas. Si una muestra de 30 focos tiene una duración promedio de 780 horas. a.Calcule e interprete un intervalo de confianza del 96% para la media de la población de todos los focos que produce esta empresa. b.Asuma que la empresa es nueva y hasta la fecha ha producido un total de 500 focos. Calcule e interprete un intervalo de confianza del 96% para la media de la población de todos los focos que produce esta empresa. 2. Un artículo publicado en un diario local indica que el tiempo promedio empleado por los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. es de 7,75 horas por semana. Suponga que el tiempo tiene una distribución aproximadamente normal con desviación estándar de 3,45 horas. Para corroborar dicha afirmación un grupo de estudiantes selecciona una muestra de 180 hogares de Lima Metropolitana y obtuvo que el tiempo promedio fue de 7,42 horas por semana. ¿Será cierta la afirmación publicada por el diario local al 92% de confianza? 2. Se visitó 20 restaurantes de una prestigiosa cadena de comida rápida. Durante cada visita, el cliente ordenó una comida básica (un sándwich, una porción de papas y una gaseosa). Se registró el tiempo entre pedir y recibir la orden. Los siguientes datos son los tiempos (en minutos) para 20 visitas: 0,9 6,8
1,0 1,3
1,2 3,0
2,2 4,5
1,9 2,8
3,6 2,3
2,8 2,7
5,2 5,7
1,8 4,8
2,1 3,5
Calcule e interprete un intervalo de confianza de 95% para la media poblacional 3. Un grupo de 50 analistas se selecciona una muestra aleatoria de tamaño 12, los cuales dieron sus opiniones acerca de las ganancias, en dólares, por acción del año 2013 para la empresa El Águila. Los datos son: 1,40
1,55
1,40
1,42
1,48
1,63
1,40
1,40
1,45
1,49
1,37
1,27
Estime e interprete, con un nivel de confianza del 95%, la ganancia promedio poblacional por acción para la empresa El Águila según la opinión de los analistas. 4. Se pide al director de una sucursal bancaria que estime el tiempo medio que se invierte en atender a un cliente. Quiere confiar al 99% en que la estimación de la media muestral no supere en más de 15 segundos a la media poblacional. ¿Cuántas observaciones debe recoger, si se sabe que la desviación estándar poblacional es de 2,7 minutos? 5. El gasto semanal de los estudiantes de una universidad en fotocopias tiene una desviación estándar de 1.5 soles. Se tomó una muestra aleatoria de 50 alumnos y se encontró una media muestral de 4 soles en fotocopias a la semana. Calcule e interprete un intervalo de confianza del 95% para dicho gasto. 6. A una muestra aleatoria de 400 personas mayores de 28 años de una ciudad determinada se les pregunta si están a favor de un nuevo impuesto adicional del 4% en el precio de la gasolina para obtener fondos necesarios que se destinarían a un programa de asistencia social. Si en la muestra elegida se encontró que 245 estaban a favor del impuesto adicional, determine e interprete un intervalo de confianza del 95% para la verdadera proporción de personas a favor del nuevo impuesto. 7. Una empresa dedicada a la venta de electrodomésticos, obtuvo una muestra aleatoria de 500 clientes, encontrándose que 311 clientes deseaban comprar sus televisores bajo la forma de pago a plazos. Calcule e interprete un intervalo de confianza al 98% para la proporción poblacional de clientes que desean comprar sus televisores a plazos. 8. Un fabricante de baterías para automóviles tomó una muestra aleatoria de diez baterías y registró su duración, en años, obteniéndose los siguientes resultados: 3,2 4,4 3,5 2,0 3,4 1,9 2,4 3,0 3,5 4,2
Pág. ¡Exigencia académica para grandes cambios!
90
ESTADÍSTICA Suponga que la duración de una batería sigue una distribución normal. Calcule e interprete un intervalo de confianza al 95% para la desviación estándar de la duración de una batería. 9. En una encuesta realizada el mes de mayo entre estudiantes universitarios de la ciudad de Lima, el 32% de los 1600 estudiantes encuestados dijeron que la situación económica del país había mejorado el último año. ¿Qué tan grande se necesita que sea la muestra de estudiantes para una nueva encuesta si se desea tener una confianza de 95% de que la amplitud del intervalo de confianza sea máximo de 4,4 %? 10. Los resultados de una prueba convencional de turbidez efectuada en 16 muestras de arena especial fueron los siguientes (en microamperes): 26,7 24,1
25,8 25,9
24,0 27,3
24,9 26,9
26,4 27,3
25,9 24,8
24,4 23,6
21,7 22,8
Tomando como base pruebas anteriormente realizadas, se puede suponer que la turbidez sigue una distribución normal. Con esta consideración y a un nivel de confianza del 98 % se pide estime el intervalo de confianza para la desviación estándar. 11. Se utiliza un penetrómetro cónico dinámico (DCP, por sus siglas en inglés) para medir la resistencia de un material a la penetración (mm/golpe), a medida que el cono es insertado en pavimento o subrasante. Suponga que para una aplicación particular, se requiere que el valor penetración cónica dinámica promedio verdadera para un cierto tipo de pavimento sea menor que 13. El pavimento no será utilizado a menos que exista evidencia concluyente de que la especificación fue satisfecha. Calcule el intervalo de confianza para la desviación estándar e interprete. (“Probabilistic Model for the Analysis of Dynamic Cone Penetrometer Test Values in Pavement Structure Evaluation”, J. of Testing and Evaluation, 1999: 7-14)
14.1 20.8 36.7
14.5 20.8 40.0
15.5 21.0 40.0
16.0 21.5 41.3
16.0 23.5 41.7
16.7 27.5 47.5
16.9 27.5 50.0
17.1 28.0 51.0
17.5 28.3 51.8
17.8 30.0 54.4
ACTIVIDAD N°6 PARTE I: Resuelve los ejercicios propuestos pares y preséntelos de manera formal. PARTE II: Presenta la matriz de datos completa de la encuesta del trabajo de investigación en el SPSS. (Captura de imagen refrendada en el laboratorio)
EJERCICIOS PROPUESTOS 1. Estimación de una Media Poblacional 1. Para tratar de estimar la media de consumo por cliente, en un gran restaurante, se reunieron datos de 49 clientes durante un periodo de 3 semanas a. Suponga que la desviación estándar de la población es de $2.50, ¿cuál es el error estándar de la muestra? b. Con nivel de confianza de 95%, ¿Cuál es el margen de error? c. Si la media de la muestra es de $22.60 dólares, ¿cuál es el intervalo de confianza de 95% de la media de la población? 2. Un analista de bolsa de valores afirma que posee un método excepcionalmente preciso para pronosticar las subidas de la cotización de acciones. En un periodo de tiempo dado, las acciones cuya compra recomendó tuvieron las siguientes subidas (en dólares) en su cotización:
Pág. ¡Exigencia académica para grandes cambios!
91
ESTADÍSTICA 2,53 1,58 3,02 2,76 1,25 2,25 1,75 2,25 Estime la media de todas las subidas de las acciones mediante un intervalo de confianza del 98%. 3. Se pretende conocer la renta anual de un grupo de 100 familias. Para ello se extrae una muestra aleatoria simple con los siguientes resultados expresados en miles de dólares: 132 154 202 105 181 160 190 125 118 Estime con una confianza del 95% y supuesta normalidad de la media poblacional para la renta anual de las 100 familias. 4. Una gran empresa desea estudiar mediante muestreo las compras de los clientes a los que factura entre 6 000 y 18 000 dólares en mercancías. Para ello, de un total de 750 clientes seleccionan una muestra aleatoria de tamaño 100, en la que resulta una facturación media de 11 720 dólares con una desviación típica de 3 000 dólares. Estime el promedio de las ventas para todos los clientes al 90% y 95%. 5. Jesús es un corredor de la Bolsa de Valores y tiene curiosidad acerca de la cantidad de tiempo que existe entre la colocación de una orden de venta y su ejecución. Jesús hizo un muestreo de 45 órdenes y encontró que el tiempo medio para la ejecución fue de 24,3 minutos, con una desviación estándar de 3,2 minutos. Ayude a Jesús en la construcción de un intervalo de confianza de 95% para el tiempo medio en la ejecución de una orden. 6. Un directivo de cierta empresa ha comprobado que los resultados obtenidos en los test de aptitud por los solicitantes de un determinado puesto de trabajo siguen una distribución normal con una desviación típica de 32,4 puntos. La media de las calificaciones de una muestra aleatoria de nueve test es de 187,9 puntos. Calcule un intervalo de confianza del 80% para la calificación media poblacional del grupo de solicitantes actual. 7. Un fabricante produce anillos para los pistones de un motor de automóvil. Se sabe que el diámetro del anillo está distribuido aproximadamente de manera normal, y que tiene una desviación estándar = 0.001 mm. Una muestra aleatoria de 15 anillos tiene un diámetro promedio de x = 74.036 mm. a. Construya un intervalo de confianza bilateral del 99% para el diámetro promedio del anillo. b. Construya un límite inferior de confianza del 95% para el diámetro promedio del anillo. 8. En un estudio hecho para determinar el tiempo medio necesario para el montaje de cierta pieza de una máquina, 40 trabajadores hicieron un promedio de 42.5 minutos con una desviación típica de 3.8 minutos. Usar los datos para construir un intervalo de confianza de 98% de tiempo promedio verdadero necesario para montar la máquina.
2. Estimación de una Proporción Poblacional 9. De una población de 1500 empleados de una empresa se seleccionó una muestra al azar de 150 para participar en una encuesta. Entre los comprendidos en la muestra, 120 manifestaron que estaban satisfechos por completo con todas las condiciones laborales de la empresa. Construya el intervalo de confianza del 98% para la proporción real que opina de esta manera. 10. Generalmente los estudios de factibilidad de proyectos requiere de una medida de la demanda para determinar la rentabilidad potencial de un bien o servicio. En un estudio para determinar la factibilidad de aumentar la programación de televisión con apoyo del gobierno, un investigador encontró que 70 de 180 viviendas con televisor seleccionadas totalmente al azar ven programas con apoyo gubernamental al menos dos horas a la semana. Encuentre un intervalo de confianza del 90% para la proporción de viviendas con televisor que ven al menos 2 horas a la semana de programas patrocinados por el gobierno. 11. Un auditor decide estimar el porcentaje de morosos de una empresa. De los 600 deudores selecciona aleatoriamente a 150, de los que 60 son morosos. Con esta información estime mediante un intervalo del 95% de confianza la proporción poblacional de morosos. Exprese el error de estimación.
Pág. ¡Exigencia académica para grandes cambios!
92
ESTADÍSTICA 12. Una muestra de 70 ejecutivos de una empresa fue investigada con respecto al pobre desempeño que ésta tuvo en noviembre, 65% de los ejecutivos creía que la disminución en las ventas se debió al alza inesperada de la temperatura, lo cual trajo como consecuencia que los consumidores retardaran la adquisición de productos de invierno. Encuentre el intervalo de confianza para esta porción, dado un nivel de confianza igual a 0,95. 13. Una industria de carnes está pensando en lanzar al mercado un nuevo tipo de carne molida de pollo. Para esto se tomó una muestra de 75 amas de casa y encontró que a 45 de ellas no les gustó este tipo de carne. Encuentre un intervalo de confianza del 99% para la verdadera proporción de amas de casa que les gustó este tipo de carne. Interprete el resultado. 14. Una marca de lavadoras quiere saber la proporción de amas de casa que preferirían usar su marca. Toman al azar una muestra de 100 amas de casa y 20 dicen que la usarían. Calcula un intervalo de confianza del 95% para la verdadera proporción de amas de casa que preferirían dicha lavadora. 3. Estimación de una varianza poblacional 15. Las siguientes son las velocidades de 10 digitadores seleccionados al azar de una empresa, los datos siguientes son el número de palabras digitadas por minuto: 66 37 18 31 35 63 73 83 68 80 Supongamos que las velocidades están normalmente distribuidas y construya el intervalo de confianza del 95% para la varianza poblacional. 16. Una máquina produce piezas metálicas en forma cilíndrica. Para estimar la variabilidad de los diámetros, se toma una muestra aleatoria de 10 piezas producidas por la máquina encontrando los siguientes diámetros en centímetros: 9,7 10,3 10,4 9,9 9,8 9,9 10,1 10,3 9,9 10,1 17. En computación, “carga de trabajo” se define como un conjunto de solicitudes de recursos de entrada-salida (E/S) durante un periodo dado. La carga de trabajo se compara con la medición llamada contenido relativo de E/S. La instalación MVS de lote comercial promedio es la base de esta medición y se le asigna un contenido relativo de E/S de 1. Otras instalaciones se califican en relación con consultoría grande, en periodos de una hora seleccionados aleatoriamente: 3,4 3,6 4,0 0,4 2,0 3,0 3,1 4,1 1,4 2,5 1,4 2,0 3,1 1,8 1,6 3,5 2,5 1,7 5,1 0,7 4,2 1,5 3,0 3,9 3,0 Construir un intervalo de confianza de 95% de la desviación estándar del contenido relativo E/S de esta instalación.
4. Determinación de Tamaño de Muestra 18. El mantenimiento de cuentas de crédito puede resultar demasiado costoso si el promedio de compra por cuenta baja de cierto nivel. El gerente de un almacén desea estimar el promedio de cantidad comprada por mes por sus 1461 clientes que usan cuenta de crédito, con un error de a lo más de 20 soles con una probabilidad aproximada de 0,95. ¿Cuántas cuentas deben ser seleccionadas del archivo de la compañía si se sabe que la desviación estándar de los balances mensuales de las cuentas de crédito es de 95 soles? 19. Una tienda por departamentos desea estimar, con un nivel de confianza de 0.98 y un error máximo de S/50, el verdadero valor promedio en soles de la compras a crédito por mes realizada por los clientes, si la desviación estándar es de S/150. ¿Cuál es el tamaño de muestra que debe elegirse? 20. Una máquina de refrescos de esta universidad está ajustada de tal manera que la cantidad de líquido despachada se distribuye aproximadamente en forma normal. ¿Qué tan grande se requiere que sea la muestra si se desea tener una confianza de 98% de que su media muestral estará dentro de 0,09 decilitros del promedio real?. Se cuenta con información de una muestra piloto de tamaño 24.
Pág. ¡Exigencia académica para grandes cambios!
93
ESTADÍSTICA 1,99 2,59 2,04 1,86 2,58 2,04 2,73 2,51 2,65 2,72 2,44 2,29 2,52 2,48 2,14 1,98 2,29 2,02 1,94 1,82 2,53 2,38 2,39 2,43 21. La cantidad de dinero en soles que los alumnos de la universidad gastan por semana en fotocopias es una variable aleatoria con media desconocida y desviación estándar igual a 1.36 nuevos soles. Se toma una muestra aleatoria de n alumnos y se registran los gastos en fotocopias para aproximar la media de la población mediante la media muestral. Se quiere hallar el tamaño de la muestra mínimo con un 95% de confianza y un error de estimación de 8 soles. Se sabe que aproximadamente la universidad cuenta con 13000 alumnos. 22. Se realiza un estudio para estimar la proporción de residentes en una ciudad que están a favor de la construcción de una nueva vía expresa. ¿Qué tan grande deber ser una muestra si se quiere una confianza de 98% de que la estimación estará dentro de 0,04 de la proporción real de residentes de la ciudad que están a favor de la construcción de la nueva vía expresa? 23. Una empresa desea estimar la proporción de trabajadores del área de diseño publicitario que están a favor de que se corrija el programa de capacitación que se viene dando actualmente en el área. La estimación debe quedar a menos de 0,07 de la proporción verdadera de los que favorecen el programa de capacitación. Con un coeficiente de confianza del 98% ¿cuántos trabajadores se deben muestrear? 24. Los productos defectuosos resultan costosos para el fabricante en términos de costo por reemplazo y en términos de deterioro de la imagen del producto ante el público consumidor. Un fabricante de computadoras confía en que a lo más 10% de los productos fabricados por su empresa resultan defectuosos. Si se desea estimar la proporción actual de computadoras defectuosas con un error del 3% y una confiabilidad del 95% ¿cuántas computadoras deben ser seleccionadas? 25. Se planea una investigación para determinar los gastos en consultoría contable promedios por año. La administración de la compañía desea tener 95% de confianza de que el promedio muestral es correcto dentro de ± $500 del promedio real por empresa. Un estudio piloto indica que la desviación estándar se puede estimar como $4000. ¿Qué tamaño de muestra se requiere? 26. En una población de 4 000 familias con hábitos de consumo muy similares se ha decidido hacer un muestreo aleatorio simple para reconocer las siguientes características: a. Porcentaje de familias que poseen televisión LCD. b. Consumo medio de aceite por mes. c. Total de kilogramos de arroz consumidos en un mes. Donde en “a” se admite un error del 7%, en el “b” de 0,5 litros y para el “c” de 10 kg. Suponemos que la población se distribuye normalmente respecto a dichas características y las estimaciones las queremos con un margen de confianza del 95%. Según datos obtenidos en una encuesta anterior realizada por una revista local, la proporción de familias con televisión a color es del 15% y las desviaciones estándar de consumo de aceite y pan se estiman en 9 litros y 16 Kg. respectivamente. Se desea conocer el tamaño de la muestra que sería necesario seleccionar para hacer cada una de las tres estimaciones.
Pág. ¡Exigencia académica para grandes cambios!
94
ESTADÍSTICA
TEMA 03 SESIÓN XI y XII
PRUEBA DE HIPÓTESIS
LOGRO:
INFORMACIÓN:
Distingue la diferencia entre hipótesis nula y alterna. Diferencia las pruebas unilaterales y bilaterales. Aplica la prueba de hipótesis para la media, proporción y varianza para una muestra.
Conceptos básicos, tipos de hipótesis, regla de decisión, procedimiento de la prueba de hipótesis para la media, proporción y varianza.
2.3 PRUEBA DE HIPÓTESIS La inferencia estadística utiliza dos métodos muy importantes uno de ellos se ha visto en el capítulo anterior como estimar los parámetros de una población a partir de valores de una muestra, pero otro de los métodos muy importantes es la Prueba de Hipótesis que se utiliza para tomar decisiones de los parámetro de la población en base a datos de una muestra. Para iniciar este capítulo primero es importante tener claro algunos conceptos básicos. 2.3.1 Conceptos Básicos 2.3.1.1 HIPÓTESIS Cualquier afirmación o conjetura que se hace a cerca de algo. 2.3.1.2 HIPÓTESIS ESTADÍSTICA Cualquier afirmación o conjetura que se hace a cerca de la distribución de una o más poblaciones Ejemplo: El promedio ponderado de los alumnos de UCCI en el semestre 2002-2 es superior a 14. 2.3.1.3 HIPÓTESIS SIMPLE Cualquier hipótesis estadística que especifica completamente la distribución de la población, especifica la forma de la distribución y el valor de su parámetro. Ejemplo: El ingreso mensual promedio de los empleados de cierta empresa es de 900 nuevos soles, suponiendo que los ingresos se distribuyen normalmente con desviación estándar de 30. 2.3.1.4 HIPÓTESIS COMPUESTA Cualquier hipótesis estadística que NO especifica completamente la distribución de la población Ejemplo: El ingreso mensual promedio de los empleados de cierta empresa es SUPERIOR a 900 nuevos soles, suponiendo que los ingresos se distribuyen normalmente con desviación estándar de 30. 2.3.2 Hipótesis Nula y Alternativa 2.3.2.1 HIPÓTESIS NULA (H0) Es la hipótesis que es aceptada provisionalmente como verdadera y cuya validez será sometida a comprobación 2.3.2.2 HIPÓTESIS ALTERNATIVA (H1) Es una hipótesis contraria a la hipótesis nula, se acepta en caso que la hipótesis nula sea rechazada.
Pág. ¡Exigencia académica para grandes cambios!
95
ESTADÍSTICA 2.3.3 PLANTEAMIENTO DE HIPÓTESIS 1) H0: = 0 H1: ≠ 0
2) H0: ≤ 0 H1: > 0
3) H0: ≥ 0 H1: < 0
Donde 0 es el valor del parámetro desconocido 2.3.4. PRUEBA DE HIPÓTESIS ESTADÍSTICA Proceso para la toma de decisiones de aceptar o rechazar la Hipótesis Nula H 0 en contraposición de la hipótesis alternativa H1 basándose en los resultados de una muestra. 2.3.5 TIPOS DE PRUEBAS DE HIPÓTESIS Depende de la hipótesis alternativa Prueba de Hipótesis unilateral o Prueba de una cola H0: = 0 y H1 : > 0 H0: = 0 y H1 : < 0
Prueba de Hipótesis Bilateral o Prueba de dos colas H0: = 0 y H1 : ≠ 0
2.3.6 ERROR TIPO I Y II DECISIÓN ACEPTAR H0 RECHAZAR H0
H0 VERDADERA
H0 FALSA
CORRECTO 1- ERROR TIPO I
ERROR TIPO II CORRECTO (1-)
Nivel de Significación () Es la probabilidad de cometer un error de tipo I = P(error tipo I) = P(rechazar H0 cuando es verdadera)
Potencia de una Prueba Es la probabilidad de cometer un error de tipo II = P(error tipo II) = P(aceptar H0 cuando es falsa)
2.3.7 REGLA DE DECISIÓN Es la división de la distribución muestral del estadístico de la prueba en dos partes mutuamente excluyentes: Región Crítica (RC): región de rechazo de H0 Región de Aceptación (RA): región de no rechazo de H 0 Depende de la hipótesis alternativa H1 del nivel de significación y la distribución muestral del estadístico Prueba de Hipótesis Bilateral o Prueba de dos cola H0: = 0 y H1 : ≠ 0
Prueba de Hipótesis unilateral o Prueba de una cola H0: = 0 y H1 : < 0
Prueba de Hipótesis unilateral o Prueba de una cola H0: = 0 y H1 : > 0
Pág. ¡Exigencia académica para grandes cambios!
96
ESTADÍSTICA 2.3.8 PROCEDIMIENTO DE LA PRUEBA DE HIPÓTESIS La prueba de hipótesis estadística consta del siguiente procedimiento: 1. Planteamiento de las hipótesis. Establezca la aseveración que desea ser probada y exprésela en forma simbólica, H 0 y H1. El signo igual siempre debe ir vinculado con la H 0. 2. Establecimiento del nivel de confianza. De acuerdo a la gravedad de cometer el error tipo I se establece el valor . Es usual considerar los valores 0.05 y 0.01. Este valor nos permitirá calcular el valor crítico de la prueba que puede ser z, t o chi cuadrado. 3. Cálculo del estadístico de prueba. Se identifica el estadístico pertinente para la prueba realizada y su respectiva distribución, luego se realiza el cálculo del mismo al cual usualmente se le denomina valor calculado. Se realiza un gráfico de la distribución que incluya el valor crítico, el estadístico de prueba y las regiones de rechazo o crítica y de aceptación. 4. Establecimiento de la regla de decisión. Rechace la H 0 si el estadístico de prueba se encuentra en la región de crítica o de rechazo. Acepte la H 0 si el estadístico de prueba se encuentra en la región de aceptación. 5. Toma de decisión. Establezca la conclusión indicando si existe evidencia muestral suficiente para aceptar la H 0 (EEEAH0) o los datos muestrales no sustentan la aseveración de la H 0 por lo que no hay evidencia estadística para aceptar H 0 (EEERH0) 2.3.9 PRUEBA DE ASEVERACIÓN PARA LA MEDIA. Supongamos que de una población normal con media desconocida y varianza conocida 2 se extrae una muestra de tamaño n, entonces de la distribución de la media muestral X se obtiene la prueba estadística o estadístico:
Z
X o X ó t n1 / n s/ n
2.3.10 PRUEBA DE ASEVERACIÓN PARA LA PROPORCIÓN. Supongamos que de una población de tamaño N de la cual se obtiene una muestra de tamaño n, existen x elementos favorables a la característica que se está analizando. Entonces la proporción muestral es:
pˆ
x . Siendo el valor presente en la hipótesis nula. n
El estadístico de prueba es:
Z
pˆ HIPOTESIS HIPOTESIS (1 HIPOTESIS ) n
El tamaño de muestra de muestra debe ser lo suficientemente grande para que la prueba sea válida. Como regla práctica: np ˆ 4 , nqˆ 4 y pˆ qˆ 1 . 2.3.11 PRUEBA DE ASEVERACIÓN PARA LA VARIANZA. Para aplicar una prueba de hipótesis relativa a la varianza de una población se debe asumir que la distribución Ji-cuadrada se da siempre y cuando se trate de poblaciones normales y el estadístico de prueba es la variable Ji-cuadrada con (n-1) grados de libertad y que se expresa como:
2
(n 1)s 2 2
El proceso que sigue una prueba de hipótesis para la varianza es el mismo que utilizamos en las anteriores secciones, es muy usual aplicar esta prueba cuando se requiere comprobar el grado de variabilidad de un proceso.
Pág. ¡Exigencia académica para grandes cambios!
97
ESTADÍSTICA EJERCICIOS RESUELTOS 1. Fumar cigarros de la marca X produce en promedio 0.6 mg de nicotina. El departamento de ingeniería del fabricante propone un filtro nuevo que supuestamente reducirá la producción de nicotina. Se toma una muestra de 50 cigarros con el nuevo filtro y se encuentra que el promedio de nicotina es de 0.55 mg. Con una desviación estándar de 0.56. ¿Debe aceptarse la aseveración del departamento de ingeniería con un nivel de significación de 2.5 por ciento? Tomado de Estadística aplicada a la Administración y Economía, Alfredo Díaz Mata, Capítulo 9, pág. 279. Primera Edición.
Solución i) El parámetro de interés es la media de la población , se desea probar:
0.60 H1: 0.60 Donde es la verdadera media de la nicotina producida por los cigarros de la marca X. H 0:
La prueba es unilateral izquierda. ii) Como se conoce la desviación estándar muestral y el valor de n es 50 se utiliza el valor crítico z, el cual es al 0.025 acumulado desde la izquierda igual a -1.96.
iii) El estimador es z calculado:
Z
X o
/ n 0.55 0.60 Z 0.6313 0.56 / 50
iv) El valor calculado o estimador -0.6313 se encuentra a la derecha del valor crítico 1.96, o sea se encuentra en la región de aceptación. v) Por lo tanto existe evidencia estadística para aceptar la hipótesis nula y se concluye que los nuevos filtros no reducen la nicotina que producen los cigarros de la marca X. 2. Los científicos han citado al benceno, un disolvente químico de uso común en la síntesis de plásticos como un posible agente causante de cáncer. Ciertos estudios han demostrado que las personas que trabajan con benceno durante más de cinco años tienen una incidencia de leucemia 20 veces mayor que la de la población en general. En consecuencia el gobierno recomienda que el nivel máximo permisible de benceno en dicho lugar de trabajo se baje de 10 partes por millón (ppm) a 1 ppm. Supongamos que una fábrica de artículos de acero, que expone diariamente a sus trabajadores al benceno, está siendo investigada por una certificadora de calidad, para ello se examinan 20 muestras de aire tomadas durante un período de un mes para determinar el contenido de benceno, obteniendo en el análisis una media de 2.1 ppm y una desviación estándar de 1.7 ppm. ¿La fábrica de artículos de acero estaría haciendo caso omiso a la recomendación? Utilice un nivel de confianza del 0.95. Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 441. Cuarta Edición.
Solución i) El parámetro de interés es la media de la población , se desea probar: H 0: H 1:
1 >1 Pág.
¡Exigencia académica para grandes cambios!
98
ESTADÍSTICA La certificadora quiere corroborar la hipótesis de investigación de que el nivel medio de benceno en la planta de fabricación excede a 1 ppm. Donde es la verdadera media. La prueba es unilateral derecha. ii) El nivel de significancia es =0.05, lo que nos permite calcular el valor crítico t (desviación estándar muestral conocida y n<30) y ubicarlo en la gráfica que corresponde a una prueba de hipótesis unilateral derecha.
iii) El estimador es t calculado:
t
X o s/ n 2.1 1 t 2.89 1.7 / 20
iv) El valor calculado t o estadístico de prueba 2.89 se encuentra a la derecha de 1.729 en la región crítica o de rechazo. Existe evidencia estadística para rechazar la H o. v) La certificadora de calidad por lo tanto llega a la conclusión que >1 ppm y que la panta está violando las normas gubernamentales con una confiabilidad asociada de =0.05. 3. El empleo de acero intemperizado en la construcción de puentes para autopistas ha sido tema de considerable controversia. Los críticos han citado temas de corrosión graves del acero intemperizado y están tratando de convencer a las autoridades de que prohíban su uso en la construcción de puentes. Por otro lado las corporaciones acereras aseguran que estas acusaciones son exageradas y dicen que 95% de todos los puentes de acero intemperizado en operación tienen un buen desempeño, sin daños graves por corrosión. A fin de probar esta aseveración, un equipo de ingenieros expertos de la industria del acero evaluaron 40 puentes de acero intemperizado seleccionados al azar y encontraron que 36 de ellos mostraban un buen desempeño. ¿Hay pruebas con =0.05 de que la verdadera proporción de puentes de acero intemperizado que presentan un buen desempeño sea menor que 0.95 que es la cifra citada por las corporaciones? Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 465. Cuarta Edición.
Solución i) El parámetro de interés es una proporción de la población , se desea probar: H0: = 0.95 H1: < 0.95 Donde es la verdadera proporción de todos los puentes de autopista de acero intemperizado que muestran un buen desempeño, siendo la prueba unilateral izquierda. ii) El nivel de significancia es =0.05, lo que nos permite calcular el valor crítico z y ubicarlo en la gráfica que corresponde a una prueba de hipótesis unilateral izquierda.
Pág. ¡Exigencia académica para grandes cambios!
99
ESTADÍSTICA iii)
pˆ
54 x 0.9 , por lo que utilizando los datos del problema: p ˆ 60 n
iv) El estadístico de prueba es:
Z
pˆ HIPOTESIS HIPOTESIS (1 HIPOTESIS ) n
Z
0.9 0.95 1.78 0.95.(1 0.95) 60
v) Se puede rechazar la hipótesis nula con =0.05, ya que el valor calculado o estimador -1.78 cae a la izquierda del -1.645 lo que indica que se encuentra en la región de rechazo. vi) Por lo tanto, existe evidencia estadística para sustentar la hipótesis de que la proporción de puentes de autopista de acero intemperizado que tienen buen desempeño es menor que 0.95. 4. Se sabe que el contenido en gramos de un producto fabricado por una compañía, no reúne las especificaciones si la varianza de un lote de producción se aleja demasiado hacia arriba o hacia debajo de 6.5. Comprobar si un gran lote de producción reúne las especificaciones, si una muestra aleatoria de 20 unidades extraída aleatoriamente de dicho lote arrojó una varianza de 7.3. Utilizar un nivel de significación del 5%. Se sabe que el contenido del producto se distribuye normalmente. Tomado de Estadística, Hugo Gómez Giraldo, Capítulo 8, pág. 238.
Solución
2 2 Ha :
i) H 0 :
=6.5
≠ 6.5 ii) La prueba es bilateral
con un nivel de
significación: α= 0.05, el es:
valor crítico ji-cuadrado
iii) El criterio de decisión será el siguiente: “Si el valor de X2 calculado es menor que 8.90652 o mayor que 32.8523, se rechaza la hipótesis nula de que la varianza sigue siendo de 6.5, con un nivel de significación del 5%”. iv) El estadístico de prueba se calcula teniendo en cuenta n=20, s 2=7.3 y utilizando la fórmula:
2
(n 1)s 2
2
(20 1).x7.3 21.34 6.5
v) Como el estadístico de prueba 21.34 se encuentra en la región de confianza o de aceptación. Entonces con podemos afirmar con un nivel de significancia del 5% que existe evidencia estadística para aceptar que la varianza del contenido del producto es el mismo. PROBLEMAS PARA LA CLASE 1.Un convenio trabajador– dirección exige una producción media de 50 unidades. Una muestra de 150 días revela una media de 47,3 con desviación típica de 5,7 unidades. Poner α = 5% y determine si cumple esta cláusula del contrato. 2.Un número de una revista dedicada a los negocios decía que la gente tardaba 34 horas de
Pág. ¡Exigencia académica para grandes cambios!
100
ESTADÍSTICA promedio en aprender un nuevo programa informático de contabilidad. ¿Está respaldada esta afirmación al nivel del 10%, si 35 personas emplearan una media de 40,58 horas, con una desviación típica de 19, 7 horas? 3.En un artículo de Fortune se debatía la creciente tendencia a que los empleados demanden a sus empresas por incumplir las promesas en relación son los beneficios sanitarios propuestos y concluía que el juicio medio se entablaba por 115 000 dólares. 42 juicios dieron una media de 114 412 dólares. Si se supone una desviación estándar de 14 000 dólares. ¿Está respaldada la hipótesis al nivel del 7%? 4. Una muestra aleatoria de diez estudiantes dio las siguientes cifras en horas para el tiempo que pasan estudiando durante la semana previa a los exámenes finales. 28; 57; 42; 35; 61; 39; 55; 46; 49; 38 Un grupo de profesores considera que el tiempo medio debería ser como mínimo de 40 horas. Pruebe si los profesores están en lo cierto con un nivel del significación de 7%. 5. La ASPEC pide a los viajeros ejecutivos que califiquen los aeropuertos internacionales que tienen oportunidad de utilizar, la calificación máxima posible es 10. Una revista de turismo desea calificar a los aeropuertos según la calificación que reciben de los ejecutivos, los aeropuertos que obtengan una calificación promedio de 7 o más se consideraran de un servicio ópti mo. Suponga que a una muestra aleatoria de 12 ejecutivos se les pidió calificar al Aeropuerto Jorge Chávez obteniéndose las siguientes calificaciones: 7, 8, 10, 8, 6, 9, 6, 7, 7, 8, 9 y 8, se verá que la media para estos datos es: 7.75 y su desviación estándar 1.215; considerando un nivel de significancia de 0.05, se puede afirmar que el Aeropuerto Jorge Chávez ofrece un servicio óptimo? 6. De una muestra de 361 propietarios de pequeños comercios que quebraron en un período determinado, 105 no tuvieron asesoramiento profesional antes de abrir el negocio. Por experiencia se sabe que lo que ha venido ocurriendo es que a lo sumo el 25% de los comercios que no reciben asesoramiento quiebran. Analice si estos resultados prueban que ha habido un aumento en el porcentaje de quiebras 7. Un fabricante afirma que al menos el 95% del equipo que ha surtido para cierta fábrica cumple con las especificaciones. Se examina una muestra de 700 piezas de equipo y se encuentra que 53 de ellas son defectuosas. ¿Puede decirse que los datos proporcionan suficiente evidencia para rechazar la afirmación del fabricante? Use el nivel de significación de 3% 8. La política de una empresa es restringir al 25% la proporción de reclamos resueltos a favor del asegurado. De las últimas 1122 pólizas, 242 compensaron por completo al asegurado; Si 1-α = 90%. ¿Se está cumpliendo la política?. 9. En su calidad de nuevo directivo en información de la empresa 3M, su jefe le ha pedido que determine si los envíos de la fábrica salen a tiempo. Como muchos otros encargos del mundo real, éste es algo impreciso y usted se pregunta qué quería decir exactamente su jefe. Por fin decide contrastar la hipótesis de que el 95% como mínimo de todos los envíos cumplen los requisitos de plazo. Para guardarse las espaldas, fija α = 1%. Después tome una muestra de 112 expediciones y encuentra que 104 de ella no se han retrasado. ¿Qué le dirá a su jefe? 10. Un supervisor de control de calidad en una enlatadora sabe que la cantidad exacta contenida en cada lata varía, pues hay ciertos factores imposibles de controlar que afectan la cantidad de llenado. El llenado medio por lata es importante pero igualmente importante es la variación 2 de la cantidad de llenado. Si 2 es grande, algunas latas contendrán muy poco y otras, demasiado. Las agencias reguladoras especifican que la desviación estándar de la cantidad de llenado debe ser menor que 0.1 onzas. El supervisor de control de calidad muestreó n=10 latas y midió la cantidad de llenado en cada una. Los datos se reproducen a continuación. 7.96 7.9 7.98 8.01 7.97 7.96 8.03 8.02 8.04 8.02 ¿Esta información proporciona con un nivel de significancia del 0.05 pruebas suficientes de que la desviación estándar de las mediciones de llenado es menor que 0.1 onzas?
Pág. ¡Exigencia académica para grandes cambios!
101
ESTADÍSTICA ACTIVIDAD N°7 PARTE I: Realice las pruebas de hipótesis de los problemas propuestos y preséntelos de manera formal. PARTE II: Realice el análisis de resultados de su trabajo de investigación en el SPSS e insértelo en la sección 5 del informe correspondiente. Presente el informe final del trabajo de investigación vía correo electrónico en la fecha indicada por el docente. PROBLEMAS PROPUESTOS (Ejercicios tomados del libro Estadística de MARIO TRIOLA 10°Ed.)
MEDIA 1. ¿La dieta funciona? Cuando 40 personas pusieron en práctica la dieta Atkins durante un año, el cambio medio de su peso fue de -2.1 libras (según datos de "Comparison of the Atkins, Ornish, Weight Watchers, and Zone Diets for Weight Loss and Heart Disease Reduction", de Dansinger et al., Journal of the American Medical Association, vol. 293, núm. 1). Suponga que la desviación estándar de todo este tipo de cambios de peso es σ = 4.8 libras, y utilice un nivel de significancia de 0.05 para probar la aseveración de que el cambio medio de peso es menor que 0. Con base en esos resultados, ¿parece que la dieta es eficaz? ¿Parece que el cambio medio de peso es lo suficientemente grande para justificar la dieta especial? 2. ¿Las latas de aluminio delgado son más endebles? La carga axial de una lata de aluminio es el peso máximo que los costados pueden soportar antes de colapsar. La carga axial es una medida importante, ya que las cubiertas superiores ejercen presión sobre los costados con presiones que varían entre 158 y 165 libras. Pepsi experimento con latas de aluminio más delgadas, y una muestra aleatoria de 175 de las latas más delgadas tiene una carga axial media de 267.11 lb. Las latas estándar tienen una carga axial media de 281.81 lb y una desviación estándar de 27.77 lb. Utilice un nivel de significancia de 0.01 para probar la aseveración de que las latas más delgadas tienen una carga axial media menor que 281.81 lb. Suponga que σ = 27.77 lb. ¿Parece que las latas más delgadas tienen una carga axial media menor que 281.81 lb? ¿Parece que las latas más delgadas son lo suficientemente fuertes para no colapsar cuando las cubiertas superiores presionan los costados? 3. Niveles de presión sanguínea. Cuando 14 estudiantes de segundo año de medicina del Bellevue Hospital midieron la presión sanguínea sistólica de la misma persona, obtuvieron los resultados que se listan abajo (en mmHg). Suponiendo que se sabe que la desviación estándar poblacional es de 10 mmHg, utilice un nivel de significancia de 0.05 para probar la aseveración de que el nivel medio de la presión sanguínea es menor que 140mmHg. La hipertensión se define como un nivel de presión sanguínea de 140 mmHg o mayor. Con base en los resultados de la prueba de hipótesis, ¿es seguro concluir que la persona no tiene hipertensión? 138 130 135 140 120 125 120 130 130 144 143 140 130 150 4. Pelotas de béisbol. En pruebas anteriores, se dejaron caer pelotas de béisbol desde una altura de 24 pies sobre una superficie de concreto; las pelotas rebotaron un promedio de 92.84 pulgadas. En una prueba realizada a una muestra de 40 pelotas nuevas, la altura del rebote tuvo una media de 92.67 in, con una desviación estándar de 1.79 in (según datos de Bookhaven National Laboratory y USA Today). Utilice un nivel de significancia de 0.05 para determinar si existe evidencia suficiente para sustentar la aseveración de que las nuevas pelotas tienen rebotes con una media distinta a 92.84 in. ¿Parecería que las pelotas son diferentes? 5. Estaturas de supermodelos. Se midió la estatura de las supermodelos Niki Taylor, Nadia Avermann, Claudia Schiffer, Elle MacPherson, Christy Turlington, BridgetHall, Kate Moss, Valeria Mazza y Kristy Hume. Ellas tienen una media de 70.2 in y una desviación estándar de 1.5 in. Utilice
Pág. ¡Exigencia académica para grandes cambios!
102
ESTADÍSTICA un nivel de significancia de 0.01 para probar la aseveración de que las supermodelos tienen estaturas con una media que es mayor a la media de 63.6 in de las mujeres en la población general. Dado que sólo contamos con nueve estaturas, ¿realmente podemos concluir que las supermodelos son más altas que la mujer típica? 6. Periodo de vida de un director de orquesta. Un artículo del New York Times señaló que la media del periodo de vida de 35 directores de orquesta varones era de 73.4 años, en contraste con la media de 69.5 años de la población general de hombres. Suponiendo que los 35 varones tienen periodos de vida con una desviación estándar de 8.7 años, utilice un nivel de significancia de 0.05 para probar la aseveración de que los directores de orquesta varones tienen un periodo medio de vida mayor que 69.5 años. ¿Parecería que los directores de orquesta varones viven más que los varones de la población general? ¿Por qué la experiencia de ser un director de orquesta varón no hace que los hombres vivan más tiempo? (Sugerencia: Pregúntese si los directores de orquesta nacen, o se convierten en directores a una edad mucho más tardía). PROPORCIÓN 7. Accidentes automovilísticos. En un estudio de 11,000 accidentes automovilísticos, se descubrió que 5720 de ellos ocurrieron a 5 millas de casa del conductor (según datos de Progressive Insurance). Utilice un nivel de significancia de 0.01 para probar la aseveración de que más del 50% de los accidentes automovilísticos ocurren dentro de 5 millas de distancia de la casa del conductor. ¿Los resultados son cuestionables porque se basan en una encuesta patrocinada por una compañía de seguros? 8. Viajes por medio de Internet. De 734 usuarios de Internet elegidos al azar, se descubrió que 360 de ellos usan Internet para hacer planes de viaje (según datos de una encuesta Gallup). Utilice un nivel de significancia de 0.01 para probar la aseveración de que, de los usuarios de Internet, menos del 50% lo utiliza para hacer planes de viaje. ¿Los resultados son importantes para los agentes de viajes? 9. Porcentaje de usuarios de correo electrónico. La tecnología está cambiando de forma drástica la forma en que nos comunicamos. En 1997 una encuesta de 880 hogares estadounidenses reveló que 149 de ellos emplean el correo electrónico (según datos de The World Almanac and Book of Facts). Utilice los resultados de esta muestra para probar la aseveración de que más del 15% de los hogares estadounidenses emplean el correo electrónico. Use un nivel de significancia de 0.05. ¿Sería válida la conclusión aún hoy? ¿Por qué? 10. Prueba de drogas a solicitantes de empleo. En 1990 el 5.8% de quienes solicitaban empleo no pasaban la prueba de drogas. Con un nivel de significancia de 0.01, pruebe la aseveración de que el porcentaje que no pasa la prueba ahora es menor, si en una muestra actual de 1520 solicitantes de empleo hay 58 individuos que no pasan la prueba (según datos de la American Management Association). ¿Sugiere el resultado que en la actualidad un menor número de solicitantes consumen drogas? 11. Teléfonos celulares y cáncer. En un estudio de 420,095 usuarios daneses de teléfonos celulares, 135 sujetos desarrollaron cáncer cerebral o del sistema nervioso (según datos del Journal of the National Cancer Institute, reportados en USA Today). Pruebe la aseveración, antes generalizada, de que estos tipos de cáncer se ven afectados por el uso de teléfonos celulares. Es decir, pruebe la aseveración de que los usuarios de teléfonos celulares desarrollan cáncer cerebral o del sistema nervioso en un porcentaje diferente al de 0.0340% registrado entre quienes no utilizan teléfonos celulares. Como este tema es de gran importancia, utilice un nivel de significancia de 0.005. ¿Deberían preocuparse los usuarios de teléfonos celulares acerca del cáncer cerebral o del sistema nervioso? 12. Prueba de la eficacia de los parches de nicotina. Un estudio realizado a fumadores que intentaban dejar el hábito con terapia de parches de nicotina reveló que 39 de ellos continuaban fumando un año después de iniciado el tratamiento y 32 habían dejado de fumar (según datos de "High-Dose Nicotine Patch Therapy", de Dale et al, Journal of the American Medical Association, vol.274, núm. 17). Utilice un nivel de significancia de 0.10 para probar la aseveración de que, de los
Pág. ¡Exigencia académica para grandes cambios!
103
ESTADÍSTICA fumadores que intentaban dejar el cigarrillo, la mayoría continúa fumando un año después de iniciar el tratamiento. ¿Sugieren estos resultados que la terapia de parches de nicotina es ineficaz? 13. Precisión del verificador de precios de una tienda. En un estudio de verificadores de precios, se verificaron 1234 artículos y se encontró que 20 de ellos tenían un sobreprecio y 1214 no lo tenían (según datos de "UPC Scanner Pricing Systems: Are They Accurate'" de Goodstein, Journal of Marketing, vol. 58). Emplee un nivel de significancia de 0.05 para probar la aseveración de que con los verificadores de precios, el 1 % de las ventas tienen un sobreprecio. (Antes de que se utilizaran los verificadores de precios, se estimaba que el porcentaje de sobreprecio era de alrededor del 1%). Con base en estos resultados, ¿parece que los verificadores de precio ayudan a los consumidores a evitar los sobreprecios? VARIANZA 14. Calificación de crédito. Cuando los consumidores solicitan un crédito, éste se califica utilizando las puntuaciones FICO (Fair, Isaac and Company). Abajo se presentan puntuaciones de crédito para una muestra de solicitantes de préstamos para automóvil, y todos ellos provienen de una nueva sucursal del Bank of Newport. Utilice los datos muestrales para probar la aseveración de que esas calificaciones de crédito provienen de una población con una desviación estándar diferente de 83, que es la desviación estándar de los solicitantes del banco central. Utilice un nivel de significancia de 0.05. Con base en los resultados, ¿parece que los solicitantes de la sucursal tienen calificaciones de crédito que varían más que las de los solicitantes del banco central? 661 595 548 730 791 678 672 491 492 583 762 624 769 729 15. El mamífero más pequeño del mundo. El mamífero más pequeño del mundo es el murciélago abejorro, también conocido como murciélago nariz de cochino (o Craseonycteris thonglongyai). Estos animales apenas alcanzan el tamaño de un abejorro grande. A continuación se incluyen los pesos (en gramos) de una muestra de estos murciélagos. Utilice un nivel de significancia de 0.05 para probar la aseveración de que esos pesos provienen de una población con una desviación estándar igual a 0.30 g, que es la desviación estándar de los pesos de los murciélagos abejorro de una región en Tailandia. ¿Parece que estos murciélagos tienen pesos con la misma variación que los murciélagos de esa región en Tailandia? 1.7 1.6 1.5 2.0 2.3 1.6 1.6 1.8 1.5 1.7 2.2 1.4 1.6 1.6 1.6 16. Tiempos de espera de clientes bancarios. Los valores listados son tiempos de espera (en minutos) de clientes del banco Jefferson Valley, donde los clientes se forman en una sola fila atendida por tres ventanillas. Ponga a prueba la aseveración de que la desviación estándar de los tiempos de espera es menor que 1.9 minutos, que es la desviación estándar de los tiempos de espera del mismo banco cuando se utilizan filas separadas para cada ventanilla. Utilice un nivel de significancia de 0.05. ¿Parece que el uso de una sola fila reduce la variación entre los tiempos de espera? ¿Cuál es una de las ventajas de reducir la variación entre los tiempos de espera? 6.5
6.6
6.7
6.8
7.1
7.3
7.4
7.7 7.7
7.7
Pág. ¡Exigencia académica para grandes cambios!
104
ESTADÍSTICA
UNIDAD DIDÁCTICA III
MÉTODOS DE PRONÓSTICOS INTRODUCCIÓN En esta tercera unidad iniciaremos nuestro estudio los temas de Análisis de Correlación, análisis de Regresión Lineal Simple, no Lineal Simple. La regresión y la correlación son dos técnicas estrechamente relacionadas que comprenden una forma de estimación de una relación existente en la población. Este análisis, comprende el análisis de los datos muestrales para saber si y cómo se relacionan entre sí dos o mas variables de una población. Para finalizar esta tercera unidad tocaremos el tema de Series de Tiempo, denominado también Series Cronológicas; éstas se definen como un conjunto de observaciones ordenadas en términos de tiempo. El objetivo de analizar tales datos es determinar si se presentan ciertos patrones históricos o pautas no aleatorias, para predecir acontecimientos futuros. APRENDIZAJES ESPERADOS Formula modelos para analizar la relación lineal y no lineal simple de las variables. CONTENIDOS: Tema 1: Análisis Correlación Tema 2: Análisis de Regresión
Pág. ¡Exigencia académica para grandes cambios!
105
ESTADÍSTICA
TEMA 01 SESIÓN XIII
ANÁLISIS DE CORRELACIÓN
LOGRO:
Calcula e interpreta la relación entre dos variables utilizando el coeficiente de correlación. Calcula e interpreta el coeficiente de determinación. Evalúa el coeficiente de correlación a través de la prueba de hipótesis.
Definición, diagrama de dispersión, coeficiente de correlación y determinación, prueba de hipótesis.
INFORMACIÓN:
3.1 ANÁLISIS DE CORRELACIÓN 3.1.1 DEFINICIÓN Un grupo de técnicas para medir la magnitud de la relación entre dos variables. 3.1.2 DIAGRAMA DE DISPERSIÓN Utilizada para representar gráficamente la relación entre dos variables Gráficamente se pueden tener alguno de estos casos: 40
40
30
30
20
20
10
10
0
0 0
10
20
30
0
Correlación lineal positiva
10
20
20
30
Correlación lineal negativa 40 35 30 25 20 15 10 5 0
100 80 60 40 20 0 0
10
30
0
10
20
30
No existe Correlación
Correlación no lineal 3.1.3 COEFICIENTE DE CORRELACIÓN LINEAL (r)
Una medida de la magnitud de la relación lineal entre dos variables. Se calcula mediante:
r
n x
n xy x y 2
x n y 2 y 2
2
el coeficiente de correlación se interpreta de la siguiente manera:
Pág. ¡Exigencia académica para grandes cambios!
106
ESTADÍSTICA Correlación negativa perfecta
Ninguna correlación Moderada correlación positiva
Moderada correlación negativa Fuerte correlación negativa
Débil correlación positiva
Débil correlación negativa - 0.5
-1
Correlación positiva perfecta
0
Fuerte correlación positiva 0.5
1
3.1.4 COEFICIENTE DE DETERMINACIÓN (r2) La proporción de la variación total de la variable dependiente Y que se explica por, o se debe a, la variación en la variable independiente X 3.1.5 PRUEBA t PARA EL COEFICIENTE DE CORRELACIÓN Hipótesis
H0 : 0 H0 : 0
Estadístico de Prueba
t
n2
r
1 r2
EJERCICIO 1. Los datos en la siguiente tabla proporcionan los kilómetros por galón que recorre un automóvil de prueba que utiliza gasolina de diferente octanaje. Octanaje Recorrido
89 20,9
93 21,2
87 20,9
90 21,9
89 21,4
95 22,2
100 22,7
98 22,5
Verifique el coeficiente de correlación. 2. En una empresa de servicio de Internet se busca relacionar las ganancias obtenidas por día con el número de usuarios que ingresan a dicha cabina diariamente. En la tabla se muestra las Ganancias en soles y el Número de usuarios por día. Observación
1
2
3
4
5
6
7
8
9
10
Ganancia (S/.) Número de usuarios
152
88
150
130
124
145
100
140
98
135
116
96
110
105
99
106
100
109
98
108
Verifique el coeficiente de correlación.
Pág. ¡Exigencia académica para grandes cambios!
107
ESTADÍSTICA
TEMA 2 SESIÓN XIV
LOGRO:
INFORMACIÓN:
ANÁLISIS DE REGRESIÓN
Identifica la variable dependiente e independiente. Evalúa la forma de la regresión. Aplica la regresión lineal simple. Evalúa la regresión no lineal simple.
Regresión lineal simple. Intervalos de confianza y de predicción. Regresión no lineal simple.
3.2 ANÁLISIS DE REGRESIÓN El análisis de regresión y correlación reconoce que puede existir alguna relación entre dos o más variables. Esto es una variable depende de otra u otras variables. Denotando como:
Y f (X )
Variable Dependiente (Y): Está en función de la variable X Variable Independiente (X): Afecta o modifica a otra variable (Y). Ejemplo: Las ventas (Y) depende del precio (X) 3.2.1 DEFINICIÓN El análisis de regresión es un grupo de técnicas para permiten encontrar un modelo matemático que relaciona a dos o más variables. Este modelo recibe el nombre de Ecuación de Regresión:
Y f (X ) 3.2.2 FORMAS DE REGRESIÓN Regresión Simple: Cuando se relacionan una variable dependiente con una independiente. Dos variables pueden relacionarse en forma de: - Regresión Lineal Simple - Regresión No Lineal Simple Regresión Múltiple: Cuando se relacionan una variable dependiente con dos o más independientes 3.2.3 SUPUESTOS DE LA REGRESIÓN Y CORRELACIÓN - Para cada valor de” x” hay un grupo de valores de “y”, y estos valores “y” están distribuidos normalmente. - Toda las medias de estas distribuciones normales de Y están sobre la línea de regresión. - Las desviaciones estándar de estas distribuciones normales son iguales. - Los valores de “y” son estadísticamente independientes.
3.2.4 REGRESIÓN LINEAL SIMPLE 3.2.4.1 Ecuación de Regresión
y a bx
Pág. ¡Exigencia académica para grandes cambios!
108
ESTADÍSTICA
40 35 30 25 20 15 10 5 0 0
10
20
30
3.2.4.2 Método de mínimos cuadrados para cálculo de a y b n x y x y b 2 2 n x x
a
y b x n
n
3.2.4.1 Error Estándar de Estimación En una medida de dispersión de los valores observados alrededor de la línea de regresión
s y,x
( y y
est
)2
n2
3.2.4.2 Intervalo de Confianza Estima el valor medio de y para una x dada
y est t / 2;n 2 s yx
1 n
( x x) 2 ( x ) 2 2 x n
3.2.4.3 Intervalo de Predicción Estima el rango de valores de y para una x dada
y est t / 2;n 2 s yx 1
1 n
( x x) 2 ( x ) 2 2 x n
3.2.5 REGRESIÓN NO LINEAL SIMPLE Entre las más importantes se tienen: REGRESIÓN EXPONENCIAL x
y ab
REGRESIÓN POTENCIAL b
y ax
100 80 60 40 20 0 0
10
20
30
REGRESIÓN POLINOMIAL
y a0 a1 x a 2 x 2 ... ak x k REGRESIÓN CUADRÁTICA
y a0 a1 x a2 x 2 Pág. ¡Exigencia académica para grandes cambios!
109
ESTADÍSTICA EJERCICIO Utilizando los ejercicios planteados en la sección anterior, estime la ecuación de regresión correspondiente y los respectivos intervalos de confianza y predicción para: a) 96 octanos. b) 105 usuarios. ACTIVIDAD N°8 PARTE I Realice el análisis de regresión y correlación para los ejercicios propuestos PARTE II Entrega del informe final del trabajo de investigación de acuerdo al formato establecido. EJERCICIOS PROPUESTOS 1. El gerente de ventas de COPIADORAS SUPER que tienen una gran fuerza de ventas en el país quiere determinar si hay alguna relación entre el número de llamadas de ventas hechas en un mes y el número de copiadoras vendidas en ese mes. El gerente selecciona una muestra aleatoria de 10 representantes y determina el número de llamadas de ventas hechas por cada representante el mes pasado y el número de copiadoras que vendió. La información se muestra a continuación: Llamadas de ventas 20 40 20 30 10 10 20 20 20 30 Copiadoras vendidas 30 60 40 60 30 40 40 50 30 70 a. Represente gráficamente la relación entre las dos variables. b. Determine el grado de relación entre las variables. c. Calcule la variación del número de copiadoras vendidas que se debe a la variación al número de llamadas de venta. d. Realice la Prueba de hipótesis respecto al coeficiente de correlación. e. Determine la ecuación de regresión (recta de regresión). f. ¿Cuál es el número esperado de venta de copiadoras para un empleado que hace 20 llamadas? g. Determine el error estándar de estimación. h. Determine el intervalo de confianza del 95% para todos los representantes que hicieron 20 llamadas. i. Determine el intervalo de predicción del 95% para una representante del norte del país que hizo 20 llamadas. 2. Los siguientes datos son las ventas (miles de dólares) de una estación de gasolina y la cantidad de automóviles atendidos. AUTOS ATENDIDOS 276 265 264 285 255 232 238 271 224 203 230 VENTAS 2.1 2.3 2.3 2.3 2.5 2.1 1.9 2.4 1.8 1.2 2.2 a. Represente gráficamente la relación entre las dos variables. b. Determine el grado de relación entre las variables. c. Calcule la variación ventas que se debe a la variación al número de autos que se atienden. d. Realice la Prueba de hipótesis respecto al coeficiente de correlación. e. Determine la ecuación de regresión (recta regresión). f. ¿Cuál es la venta si se atienden 300 automóviles? g. Determine el error estándar de estimación. h. Determine el intervalo de confianza para las ventas promedio cuando se atienden 300 automóviles del 95%. i. Determine el intervalo de predicción del 95% para las ventas promedio cuando se atienden 300. 3. Un fabricante de pantalones sabe que un presupuesto considerable para anunciar en televisión su producto creará una demanda de éste entre los compradores de los almacenes. La tabla muestra las cantidades (en miles de dólares) que se gastan para anunciar la línea de otoño durante los últimos ocho años y las unidades vendidas (en miles vendidas) de cada línea para el otoño. Gastos en Publicidad (miles de $) 50 65 75 100 125 140 170 195 Pantalones Vendidos (miles de Unidades) 45 60 80 95 120 150 145 190
Pág. ¡Exigencia académica para grandes cambios!
110
ESTADÍSTICA a. Represente gráficamente la relación entre las dos variables b. Determine el grado de relación entre las variables c. Calcule la variación ventas que se debe a la variación de los gastos en publicidad. d. Realice la Prueba de hipótesis respecto al coeficiente de correlación e. Determine la ecuación de regresión (recta regresión). f. ¿Cuál es la venta de pantalones si se gasta 160 mil dólares en publicidad? g. Determine el error estándar de estimación h. Determine el intervalo de confianza para las ventas de pantalones cuando se gasta 160 mil dólares en publicidad del 95%. i. Determine el intervalo de predicción del 95% para las ventas promedio de pantalones cuando gastan 160 mil dólares en publicidad
Pág. ¡Exigencia académica para grandes cambios!
111
ESTADÍSTICA
ANEXO N°1
Pág. ¡Exigencia académica para grandes cambios!
112
ESTADÍSTICA
GUIA DE MICROSOFT EXCEL
Excel es un programa de computadora desarrollado por la empresa Microsoft. A este tipo de programa se lo conoce como Hoja de Cálculo porque sirve para que una persona realice cálculos matemáticos cómodamente. El área de trabajo en Excel es una figura en la pantalla que, aunque se la llama hoja, se trata de una tabla con muchas filas y columnas que al cruzarse forman una gran cantidad de celdas. Los que saben usar Excel le asignan a las celdas datos o fórmulas matemáticas. A estas últimas se les indica cuáles son las celdas de las que deben obtener los datos necesarios para calcular sus resultados. Excel facilita notablemente el trabajo de los contadores, físicos, matemáticos, estadistas y de todo aquel que necesite hacer varias veces los mismos cálculos. Cada hoja puede ser guardada y vuelta a utilizar cada vez que se lo necesite. El programa también ofrece la posibilidad de hacer gráficos automáticamente, en los que se puede observar cómo se comporta una variable numérica con respecto a otra. En conclusión, Excel es una herramienta de gran utilidad para quienes quieran trabajar con funciones y fórmulas matemáticas, o simplemente almacenar datos numéricos y graficar su evolución.
Tema Nº 1: PROCEDIMIENTOS BÁSICOS
1.1 El entorno de trabajo de Excel: Para ejecutar Excel, simplemente se hace clic en el botón de inicio de Windows, después la opción Programas, y finalmente se hace clic sobre el icono Microsoft Excel. Cuando se ejecuta Excel, aparecerá la pantalla que consta de cinco áreas. La primera área es la ventana del libro de trabajo (la cual ocupa la mayor parte de la pantalla), la segunda es la Barra de menús, la tercera es la Barra de herramientas, la cuarta es la Barra de fórmulas y por último, la quinta es la Barra de estado. En conjunto, las cinco áreas anteriores se conocen como el área de trabajo de Excel.
BARRA DE MENÚS
BARRA DE HERRAMIENTAS
Pág. ¡Exigencia académica para grandes cambios!
113
ESTADÍSTICA
BARRA DE FÓRMULAS
LIBRO DE TRABAJO (celdas)
BARRA DE ESTADO
1.2 Construcción de fórmulas: Las fórmulas constituyen la parte medular del concepto de una hoja de cálculo como Excel. Es una regla de Microsoft Excel que todas las fórmulas comiencen con el signo de igualdad “=”. Primero se selecciona la celda en la cual se desea almacenar el resultado de la fórmula. Después, en la barra de fórmulas se ingresa el signo “=” para indicar a Excel que se trata de una fórmula. Cuando se termina de introducir el valor, se deberá aceptar el dato para almacenarlo de forma permanente dentro de la celda. La forma más simple de hacerlo es presionando la tecla ENTER, después de haber digitado el valor. Los operadores con los que trabaja Excel son: Operación Adición Sustracción Multiplicación División Potenciación Radicación
Operador + * / ^ Exponentes fraccionarios
1.3 Combinación de paréntesis: La única regla para el uso de paréntesis en una fórmula es que por cada paréntesis cerrado, deberá existir un paréntesis abierto, y viceversa. De lo contrario, Excel visualizará un mensaje de error en la fórmula introducida. 1.4 ¿Cómo hacer cálculos estadísticos en Excel? Hay dos posibilidades: Usar funciones estadísticas. Usar el cuadro de diálogo “Análisis de datos” 1.5 Funciones estadísticas: En Excel tenemos muchas funciones como Matemáticas y Trigonométricas, Financieras, Estadísticas, etc. Para poder usarlas debemos tener en cuenta lo siguiente: Siempre comienzan por el signo igual ( = ). Se escribe el nombre de la función.
Pág. ¡Exigencia académica para grandes cambios!
114
ESTADÍSTICA
Se añaden los argumentos entre paréntesis. En el caso de las fórmulas estadísticas es frecuente que los argumentos sean rangos.
1.6 A. B. C. D.
El cuadro de diálogo Insertar función: Elija la categoría Estadísticas. Busque el nombre de la función en la lista. Puede ver la descripción de la función para asegurarse de que ha elegido la adecuada. Puede obtener más información en Ayuda.
A B
C D Funciones estadísticas FUNCIÓN
DESCRIPCIÓN
Frecuencias
CONTAR CONTAR.BLANCO CONTAR.SI CONTARA FRECUENCIA PERMUTACIONES COMBINAT PROBABILIDAD
Cuenta cuántos números hay en la lista de argumentos Cuenta el número de celdas en blanco dentro de un rango Cuenta el número de celdas que no están en blanco dentro de un rango que coincida con los criterios especificados. Cuenta cuántos valores hay en la lista de argumentos Devuelve una distribución de frecuencia como una matriz vertical Devuelve el número de permutaciones para un número determinado de objetos Devuelve el número de combinaciones para un número determinado de objetos Devuelve la probabilidad de que los valores de un rango se encuentren entre dos límites
Pág. ¡Exigencia académica para grandes cambios!
115
ESTADÍSTICA Promedios
MEDIA.ACOTADA MEDIA.ARMO MEDIA.GEOM MEDIANA MODA.UNO PROMEDIO PROMEDIOA
Devuelve la media del interior de un conjunto de datos Devuelve la media armónica Devuelve la media geométrica Devuelve la mediana de los números dados Devuelve el valor más frecuente en un conjunto de datos Devuelve la media aritmética de los argumentos Devuelve la media aritmética de los argumentos, incluidos números, texto y valores lógicos
Medidas de dispersión Devuelve la covarianza, el promedio de los productos de las desviaciones pareadas Calcula la desviación estándar basada en una muestra DESVEST.M Calcula la desviación estándar de una muestra, incluidos DESVESTA números, texto y valores lógicos Calcula la desviación estándar de la población total DESVEST.P Calcula la desviación estándar de la población total, incluidos DESVESTPA números, texto y valores lógicos Devuelve la suma de los cuadrados de las desviaciones DESVIA2 Devuelve el promedio de loas desviaciones absolutas de la DESVPROM media de los puntos de datos Calcula la varianza de una muestra VAR.S Calcula la varianza de una muestra, incluidos números, texto VARA y valores lógicos Calcula la varianza en función de toda la población VAR.P Calcula la varianza de la población total, incluidos números, VARPA texto y valores lógicos Medidas de posición, asimetría y curtosis Devuelve la asimetría de una distribución COEFICIENTE.ASIMETRIA Devuelve el cuartil de un conjunto de datos CUARTIL Devuelve la curtosis de un conjunto de datos CURTOSIS Devuelve la jerarquía de un número en una lista de números JERARQUIA Devuelve el K-ésimo mayor valor de un conjunto de datos K.ESIMO.MAYOR Devuelve el K-ésimo menor valor de un conjunto de datos K.ESIMO.MENOR Devuelve el valor máximo de una lista de argumentos MAX Devuelve el valor máximo de una lista de argumentos, MAXA incluidos números, texto y valores lógicos Devuelve el valor mínimo de una lista de argumentos MIN Devuelve el valor mínimo de una lista de argumentos, MINA incluidos números, texto y valores lógicos Devuelve el K-ésimo percentil de los valores de un rango PERCENTIL Devuelve el rango de un valor en un conjunto de datos como RANGO.PERCENTIL porcentaje del conjunto Distribuciones discretas Devuelve el valor menor cuya desviación binomial INV.BINOM acumulativa es menor o igual que un valor de un criterio Devuelve la probabilidad de una variable aleatoria discreta DISTR.BINOM.N siguiendo una distribución binomial Devuelve la probabilidad para una variable aleatoria discreta DISTR.HIPERGEOM.N siguiendo una distribución hipergeométrica Devuelve la distribución binomial negativa o Pascal NEGBINOM.DIST Devuelve la distribución de Poisson POISSON.DIST Distribuciones continuas Devuelve un número aleatorio mayor o igual que 0 y menor ALEATORIO que 1 distribuido uniformemente. Es volátil Devuelve un número aleatorio entero distribuido ALEATORIO.ENTRE uniformemente entre los límites que se especifique Devuelve la probabilidad de una variable aleatoria continua DISTR.CHICUAD siguiendo una distribución chi cuadrado de cola izquierda Devuelve la probabilidad de una variable aleatoria continua DISTR.CHICUAD.CD siguiendo una distribución chi cuadrado de cola derecha Devuelve la función de distribución beta acumulativa DISTR.BETA.N
COVAR
Pág. ¡Exigencia académica para grandes cambios!
116
ESTADÍSTICA INV.BETA.N DISTR.EXP.N DISTR.F.CD DISTR.F.N INV.F INV.F.CD DISTR.GAMMA.N INV.GAMMA DISTR.NORM.N DISTR.NORM.ESTAND.N INV.NORM.ESTAND INV.NORM DISTR.T.2C
DISTR.T.N
Devuelve la inversa de la función de distribución acumulativa para una distribución beta especificada Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución exponencial acumulativa (cola izquierda) Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución F de cola derecha Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución F acumulativa de cola izquierda Devuelve el inverso de una distribución de probabilidad F de cola izquierda Devuelve el inverso de una distribución de probabilidad F de cola derecha Devuelve la probabilidad de una variable aleatoria siguiendo una distribución gamma acumulativa (cola izquierda) Devuelve el inverso de la función gamma Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución normal acumulativa (cola izquierda). Con una media y desviación estándar específicos Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución normal estándar acumulativa Devuelve el inverso de la distribución normal estándar acumulativa Devuelve el inverso de la distribución normal acumulativa con una media y desviación estándar específicas Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución t de Student de dos colas Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución t de Student de cola izquierda Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución t de Student de cola derecha
DISTR.T.CD
INV.T INV.T.2C DIST.WEIBULL NORMALIZACION
Devuelve el inverso de cola izquierda de la distribución t de Student Devuelve el inverso de dos colas de la distribución t de Student Devuelve la probabilidad de una variable aleatoria continua siguiendo una distribución de Weibull acumulativa de cola izquierda Devuelve un valor normalizado
Regresión
COEF.DE.CORREL COEFICIENTE.R2 CRECIMIENTO ERROR.TIPICO.XY ESTIMACION.LINEAL ESTIMACION.LOGARITMICA INTERSECCION.EJE PENDIENTE PRONOSTICO TENDENCIA
Devuelve el coeficiente de correlación de dos conjuntos de datos Devuelve el cuadrado del coeficiente de correlación del momento del producto Pearson Devuelve valores en una tendencia exponencial Devuelve el error típico del valor de Y previsto para cada X de la regresión Devuelve los parámetros de una tendencia lineal Devuelve los parámetros de una tendencia exponencial Devuelve la intersección de la línea de regresión lineal Devuelve la pendiente de la línea de regresión lineal Devuelve un valor en una tendencia lineal Devuelve valores en una tendencia lineal
Pruebas
INTERVALO.CONFIANZA.NORM INTERVALO.CONFIANZA.T PRUEBA CHICUAD
Devuelve el intervalo de confianza para la media de una población usando la distribución normal Devuelve el intervalo de confianza para la media de una población usando la distribución t Student Devuelve una probabilidad llamada “p-valor” de las pruebas de aplicaciones de la chi cuadrado
Pág. ¡Exigencia académica para grandes cambios!
117
ESTADÍSTICA INV.CHICUAD INV.CHICUAD.CD PRUEBA.F.N PRUEBA.FISHER.INV PRUEBA.T
PRUEBA.Z
Devuelve el inverso de una probabilidad dada, de cola izquierda, en una distribución chi cuadrado Devuelve el inverso de una probabilidad dada, de cola derecha, en una distribución chi cuadrado Devuelve una probabilidad llamada “p-valor” del resultado de una prueba F de dos colas para homogeneidad de varianzas Devuelve el inverso de la transformación Fisher Devuelve una probabilidad llamado “p-valor” asociada con la prueba t de Student para dos medias: pareadas, varianzas desconocidas pero homogéneas o varianzas desconocidas pero heterogéneas Devuelve una probabilidad llamada “p-valor” asociada a una prueba Z de una cola para una media
1.7 Herramientas para análisis estadístico: La herramienta de análisis estadístico es un programa de complemento de Excel que está disponible al instalar Excel, para usarla es necesario cargarla primero. Si el comando Análisis de datos no está disponible, deberá cargar el programa de complemento Herramientas para análisis. Así, en Excel ir a Opciones:
Haga clic en Ir… y en la ventana que aparece marcar con un check Herramientas para análisis, luego Aceptar.
Pág. ¡Exigencia académica para grandes cambios!
118
ESTADÍSTICA Ahora ya debe estar activo el Análisis de datos en el menú Datos.
Las Herramientas para análisis de datos incluyen las herramientas que se describen a continuación. Para tener acceso a estas herramientas, haga clic en Análisis de datos en el grupo Análisis de la ficha Datos.
Análisis de varianza de un factor: Proporciona la prueba de hipótesis de que las medias de k poblaciones son iguales versus que al menos una sea diferente. Se usa para el análisis de varianza del Diseño Completo al azar. Si sólo existieran dos muestras, la función PRUEBA.T hace lo mismo. Análisis de varianza de dos factores con varias muestras por grupo: Se usa cuando los datos se pueden clasificar de acuerdo con dos dimensiones diferentes y varias mediciones por cada grupo. Es usado para el análisis de varianzas del experimento factorial. Análisis de varianza de dos factores con una sola muestra por grupo: Se usa cuando los datos se clasifican en dos dimensiones diferentes, pero suponemos que existe una única observación para cada par. Es usado para el análisis de varianza del Diseño Bloque Completo al azar. Coeficiente de correlación: Calcula una matriz de correlación que muestra el valor del coeficiente de correlación para cada uno de los pares de variables en estudio. Las funciones COEF.DE.CORREL y PEARSON hacen lo mismo para dos variables. Covarianza: Calcula una matriz de correlación que muestra el valor de la covarianza para cada uno de los pares de variables en estudio. La función COVAR hace lo mismo para dos variables. Estadística descriptiva: Genera un informe estadístico de una sola variable para los datos del rango de entrada, y proporciona información acerca de la tendencia central y dispersión de los datos. Suavización exponencial: Predice un valor que está basado en el pronóstico del período anterior, ajustado al error en ese pronóstico anterior. La herramienta utiliza la constante de suavización a, cuya magnitud determina la exactitud con la que los pronósticos responden a los errores en el pronóstico anterior. Nota: Los valores de 0,2 a 0,3 son constantes de suavización adecuadas. Estos valores indican que el pronóstico actual debe ajustarse entre un 20% y un 30% del error en el pronóstico anterior. Las constantes mayores generan una respuesta más rápida, pero pueden producir proyecciones erróneas. Las constantes más pequeñas pueden dar como resultado retrasos prolongados en los valores pronosticados. Prueba F para varianzas de dos muestras: Ejecuta una prueba F de dos muestras para comparar dos varianzas poblacionales. La herramienta nos proporciona el valor de la estadística de prueba Fcal. También proporciona el p-valor de una cola. Histograma: Calcula las frecuencias individuales y acumulativas de rangos de celdas de datos y de clases de datos. Esa herramienta genera datos acerca del número de apariciones de un valor en un conjunto de datos. Media móvil: Proyecta valores en el período de pronósticos, basándose en el valor promedio de la variable calculada durante un número específico de períodos anteriores. Una media móvil proporciona información de tendencias que se vería enmascarada por una simple media de todos los datos históricos. Utilice esta herramienta para pronosticar ventas, inventario u otras tendencias. Generación de números aleatorios: Rellena un rango con números aleatorios independientes extraídos de una de varias distribuciones. Puede utilizar esta herramienta para caracterizar a los sujetos de una población con una distribución de probabilidades Jerarquía y percentil: Genera una tabla que contiene los rangos ordinales y porcentuales de cada valor de un conjunto de datos. Permite analizar la importancia relativa de los valores en un conjunto de datos. Esta herramienta usa las funciones JERARQUIA y RANGO.PERCENTIL de la hoja de cálculo. JERARQUIA no explica los valores relacionados. Si desea explicar valores relacionados, use la función JERARQUIA de la hoja de cálculo junto con el factor de corrección que se sugiere en el archivo de la Ayuda para JERARQUIA. Regresión: Efectúa el análisis de regresión lineal utilizando el método de "mínimos cuadrados" para ajustar una línea a un conjunto de observaciones. Puede utilizar esta herramienta para analizar la forma en que los valores de una o más variables independientes afectan a una variable dependiente. La herramienta Regresión usa la función ESTIMACION.LINEAL de la hoja de cálculo.
Pág. ¡Exigencia académica para grandes cambios!
119
ESTADÍSTICA
Muestras: Crea una muestra de población tratando el rango de entrada como una población. Cuando la población sea demasiado grande para procesarla o para presentarla gráficamente, puede utilizarse una muestra representativa. Además, si cree que los datos de entrada son periódicos, puede crear una muestra que contenga únicamente los valores de una parte determinada de un ciclo. Prueba t para medias de dos muestras emparejadas: Puede utilizar una prueba emparejada cuando existe un par natural de observaciones en las muestras, como cuando un grupo de muestras se somete a prueba dos veces, antes y después de un experimento. Esta herramienta de análisis y su fórmula ejecutan una prueba t de Student de dos muestras emparejadas para determinar si las observaciones realizadas antes y después de un tratamiento proceden probablemente de distribuciones con medias de población iguales. En este tipo de prueba no se supone que las varianzas de ambas poblaciones sean iguales Prueba t para dos muestras suponiendo varianzas iguales: Esta herramienta de análisis ejecuta una Prueba t de Student en dos muestras. En este tipo de prueba se supone que los dos conjuntos de datos proceden de distribuciones con las mismas varianzas. Se conoce con el nombre de Prueba t homoscedástica. Puede utilizar este tipo de prueba para determinar si es probable que las dos muestras procedan de distribuciones con medias de población iguales. Prueba t para dos muestras suponiendo varianzas desiguales: Esta herramienta de análisis ejecuta una Prueba t de Student en dos muestras. En este tipo de prueba se supone que los dos conjuntos de datos proceden de distribuciones con varianzas desiguales. Se conoce con el nombre de Prueba t heteroscedástica. Al igual que en el caso anterior suponiendo varianzas iguales, este tipo de prueba puede utilizarse para determinar si es probable que las dos muestras procedan de distribuciones con medias de población iguales. Utilice esta prueba cuando haya sujetos distintos en las dos muestras. También puede utilizarse para el caso en que la hipótesis nula sea que existe un valor distinto de cero específico para la diferencia entre las dos medias de población. Prueba z para medias de dos muestras: Realiza una prueba z para comparar las medias con varianzas conocidas. Esta herramienta se utiliza para comprobar las hipótesis nulas relativas a que no existen diferencias entre dos medias de población frente a las hipótesis alternativas en uno u otro sentido. También puede utilizarse para el caso en que la hipótesis nula sea que existe un valor distinto de cero específico para la diferencia entre las dos medias de población.
Pág. ¡Exigencia académica para grandes cambios!
120
ESTADÍSTICA Tema Nº 2: ESTADÍSTICA DESCRIPTIVA 2.1 Tablas de frecuencia y gráficos de variable cualitativa: Tomamos los datos de la variable Edad de la encuesta a los alumnos del curso de Estadística 1 para elaborar la tabla de distribución de frecuencias, el gráfico de barras y el de sectores. Tabla de frecuencias: Seleccione el menú Insertar y luego la opción Tabla dinámica. En la ventana que aparece elegimos el rango de celdas donde se encuentran los datos y elegimos que la tabla se coloque en la misma hoja de cálculo donde se encuentran los datos haciendo clic en el botón y luego en alguna celda vacía de la hoja activa. T ambién puede elegir que se ubiquen en una nueva hoja de cálculo.
Excel mostrará la siguiente pantalla, en la cual arrastramos la variable EDAD a la ventana de Etiquetas de fila y también a la de Valores.
Ahora copie la tabla creada y péguela en una nueva posición, asegúrese de elegir la opción Valores del menú contextual aparece haciendo clic con el botón derecho del ratón en una vacía y antes de pegar los datos. Con ello habrá copiado sólo valores de la tabla y ahora se verá de esta forma:
pero que celda los
Pág. ¡Exigencia académica para grandes cambios!
121
ESTADÍSTICA Ahora podemos completar los datos que faltan, tales como las frecuencias relativas y acumuladas. Asimismo, podemos cambiar la celda “Etiquetas de fila” por el nombre de la variable y la celda “Cuenta de EDAD” por Frecuencia absoluta. Para calcular las frecuencias relativas y acumuladas lo haremos haciendo uso de fórmulas.
También daremos el formato final correspondiente, quedando de la siguiente manera:
Gráfico de barras: Para seleccionar dos columnas no contiguas se procede de la siguiente manera: Seleccione el rango de dato de la variable Edad, luego presión Ctrl y el rango de Frec.Abs. Con esto, Excel permite elegir sólo lo que deseamos, evitando hacer selecciones en bloque. Luego elija el menú Insertar y la opción Columna
Al hacer clic sobre cualquier parte del gráfico aparecerá el menú Herramienta de gráficos, con sus opciones Diseño, Presentación, Formato. Elegimos Presentación.
A B
C
A: En el botón Título del gráfico, seleccionamos la ubicación del título encima del gráfico y escribimos: Distribución de alumnos según edad. B: En el botón Rótulos del eje, escogeremos Eje X y Eje Y, según corresponda y escribiremos su etiqueta. C: El botón Etiquetas de datos activa la posición donde irán los valores de cada barra.
Pág. ¡Exigencia académica para grandes cambios!
122
ESTADÍSTICA Finalmente el gráfico quedará de la siguiente manera:
FRECUENCIAS
DISTRIBUCIÓN DE ALUMNOS SEGÚN EDAD 40
29
20
12
6
5
0 18 a 19
20 a 21
21 a 22
23 a mas
EDAD
Gráfico de sectores: Repita los mismos pasos llevados a cabo para realizar el gráfico de barras, pero teniendo cuidado de seleccionar ahora los valores de la variable Edad y la frecuencia relativa. Para hacer que los valores de las etiquetas se muestren en porcentaje, haga doble clic en cualquier etiqueta y aparecerá la ventana Formato de etiqueta de datos y en ella seleccione la opción Número y elija Porcentaje con dos posiciones decimales. Finalmente Cerrar.
El resultado será:
DISTRIBUCIÓN PORCENTUAL DE ALUMNOS, SEGÚN EDAD 9.62%
11.54%
23.08%
55.77% 18 a 19
20 a 21
21 a 22
23 a mas
2.2 Tabla de frecuencias y gráficos de variable cuantitativa discreta:
Pág. ¡Exigencia académica para grandes cambios!
123
ESTADÍSTICA Tomamos los datos de la variable Número de hermanos de la encuesta a los alumnos del curso de Estadística 1 para elaborar la tabla de distribución de frecuencias y el gráfico de bastones o diagrama de frecuencias.
Tabla de frecuencias: Halle el rango de valores mínimo y máximo del número de hermanos. Puede utilizar las funciones Max para el valor máximo y Min para el valor mínimo. Haga clic en otra celda y coloque los valores posibles de la variable. Tome en cuenta los valores máximo y mínimo de la variable y recuerde es entera. Seleccione el rango donde irán las frecuencias absolutas respectivas. Luego, active el icono de Insertar función. Seleccione FRECUENCIA y acepte.
que
En la ventana de FRECUENCIA ingrese en Datos el rango de los datos que se desea contar. En Grupos ingrese el rango de celdas de las categorías de la variable Número de hermanos.
Finalmente, manteniendo presionado CTRL+SHIFT presione ENTER. Aparece la siguiente tabla de frecuencia. Ahora complete la tabla calculando la frecuencia relativa y absoluta.
Pág. ¡Exigencia académica para grandes cambios!
124
ESTADÍSTICA
Gráfico de bastones: Seleccione las frecuencias absolutas:
En la barra de menú elija la opción Insertar, seleccione el tipo Línea-Línea con marcadores:
Se muestra lo siguiente Pág. ¡Exigencia académica para grandes cambios!
125
ESTADÍSTICA 20 18 16 14 12 10
Series1
8 6 4 2 0 1
2
3
4
5
6
7
Para elaborar el gráfico de bastones se seguirá los siguientes pasos: Ubicarse en el gráfico, eliminar la leyenda, asignar los ejes con los valores respectivos, agregar título, etiquetas a los ejes.
DISTRIBUCIÓN DE ALUMNOS, SEGÚN NÚMERO DE HERMANOS 20
Frecuencias
15 10 5 0 1
2
3
4
5
6
7
Número de hermanos
Para cambiar los valores del eje X dar clic derecho sobre el gráfico y elegir Seleccionar origen de datos – Editar.
Se muestra la siguiente ventana para designar el rango del rótulo de datos.
Pág. ¡Exigencia académica para grandes cambios!
126
ESTADÍSTICA
Elegir la serie, hacer clic derecho y elegir Formato de serie de datos
Aparece la ventana siguiente. Elegir Color de línea – Sin línea.
Pág. ¡Exigencia académica para grandes cambios!
127
ESTADÍSTICA Para hacer los bastones, seleccionar el área del gráfico y en herramientas de gráfico, la opción Líneas – Líneas de unión.
El gráfico quedará de la siguiente manera:
DISTRIBUCIÓN DE ALUMNOS, SEGÚN NÚMERO DE HERMANOS
Frecuencias
20 15 10 5 0 1
2
3
4
5
6
7
Número de hermanos
Ahora sólo falta colocar las etiquetas de datos en el menú Herramientas de gráficos – Etiquetas de datos. Finalmente quedará:
Frecuencias
20
19
15
DISTRIBUCIÓN DE ALUMNOS, SEGÚN NÚMERO DE HERMANOS
11
10
10
6
5
2
1
5
6
3
0 1
2
3
4
7
Número de hermanos
2.3 Tabla de frecuencias y gráficos de variable cuantitativa continua: En esta parte mostraremos paso a paso la herramienta proporcionada por Excel para la elaboración de tablas de frecuencia para datos agrupados en intervalos, así como sus gráficas respectivas.
Tabla de frecuencias:
Pág. ¡Exigencia académica para grandes cambios!
128
ESTADÍSTICA Para ello, elegimos la variable Gastos de alimentación y procedemos a calcular el rango, número de intervalos y amplitud de intervalo. Elija una celda y obtenga: Número de datos =CONTAR(L4:L55) Valor máximo =MAX(L4:L55) Valor mínimo =MIN(L4:L55) Rango = Calcule la diferencia entre el máximo y mínimo valor. Número de intervalos =REDONDEAR(1+3.322*LOG10(52),0). Recuerde que el número de intervalos es entero redondeado al valor más cercano. Amplitud =REDONDEAR.MAS(AQ23/AP24,0). Recuerde que la amplitud del intervalo se redondea exceso usando la misma cantidad de cifras decimales que las utilizadas por los datos.
por
Ahora genere los límites de cada uno de los intervalos. En una celda libre elija como el límite inferior del primer intervalo el valor mínimo. A partir de este valor genere los demás límites sumando la amplitud hasta completar los límites inferiores y superiores de los intervalos. Obtenga la marca de clase de cada intervalo que es el promedio de los respectivos límites. Obtenga las frecuencias utilizando la metodología vista en el ejercicio anterior, considerando como Datos el rango de los datos que se desea contar y como Grupos los límites superiores de los intervalos. Para ello, elegimos insertar función haciendo clic en
y aparecerá la siguiente ventana:
Finalmente, manteniendo presionado CTRL+SHIFT presione ENTER. Aparece la siguiente tabla de frecuencia.
Pág. ¡Exigencia académica para grandes cambios!
129
ESTADÍSTICA
Ahora complete la tabla calculando la frecuencia relativa y absoluta.
Histograma, polígono de frecuencias y ojiva: Seleccionar el bloque correspondiente a las frecuencias absolutas, luego el menú Insertar y la opción Columna – Columna agrupada.
Para que se junten los rectángulos, hacer clic en una barra y elegir Dar formato a serie de datos, luego en Acho del intervalo 0%.
Pág. ¡Exigencia académica para grandes cambios!
130
ESTADÍSTICA
Con ello habremos conseguido que las barras se hagan más gruesas y no dejen espacio en blanco entre ellas. El resultado será el siguiente:
Pág. ¡Exigencia académica para grandes cambios!
131
ESTADÍSTICA 25 20 15 Series1
10 5 0 1
2
3
4
5
6
7
Para que aparezcan los límites de cada clase se procede de la siguiente manera: Haga clic con el botón derecho en una barra y elija Seleccionar casos.
De clic en Aceptar y el resultado será el siguiente:
Pág. ¡Exigencia académica para grandes cambios!
132
ESTADÍSTICA 25 20 15 Series1
10 5 0 70
146
222
298
374
450
526
Y para finalizar colocar el título del gráfico, los rótulos del eje X e Y y de ser el caso modificar el formato del eje vertical, el cual puede estar en porcentaje en caso de tratarse de la frecuencia relativa.
DISTRIBUCIÓN DE ALUMNOS, SEGÚN GASTOS EN ALIMENTACIÓN 23
Frecuencias
25 20 15
10
9
9 6 3
5
1
1
450
526
0 70
146
222
298
374
Gastos en alimentación De una manera similar debe construirse el polígono de frecuencias y la ojiva, tal como se muestra a continuación, teniendo en cuenta en agregar una amplitud a la izquierda y derecha de los valores extremos pero con frecuencia absoluta igual a cero.
DISTRIBUCIÓN DE ALUMNOS, SEGÚN GASTOS EN ALIMENTACIÓN Frecuencias
30
23
20 10
9 0
9 3
6 1
1
0
0 32
108 184 260 336 412 488 564 640 Gastos en alimentación
De manera similar para la ojiva, agregamos una categoría a las frecuencias absolutas acumuladas que empiece con cero.
Pág. ¡Exigencia académica para grandes cambios!
133
ESTADÍSTICA OJIVA DE DISTRIBUCIÓN DE ALUMNOS, SEGÚN GASTOS EN ALIMENTACIÓN Frecuencias
60
44
32
40 20
50
51
52
35
9 0
0
70
146 222 298 374 450 526 Gastos en alimentación
2.4 Gráfico de Pareto: El presente ejercicio tiene como objetivo elaborar el gráfico de Pareto, el cual es un gráfico de barras ordenado por frecuencias por medio del cual se puede detectar e identificar los problemas que tienen más relevancia, por lo que este tipo de gráfico es utilizado para separar los aspectos significativos de un problema y dirigir adecuadamente los esfuerzos de mejora. Caso de estudio: Wanka Group S.R.Ltda. es un distribuidor de productos de automatización eléctricos y transmisiones de poder. Últimamente se ha observado un constante retraso en las entregas, por lo que el gerente desea saber cuáles son los errores más frecuentes para tomar una acción de mejora. Por lo tanto diseñó un formato donde se registran los errores de cada orden que no se entregan a tiempo. Los datos se muestran en la siguiente tabla de distribución de frecuencias:
Realice un análisis de los tipos de errores que se presentan en la entrega a destiempo de los pedidos y ayude al gerente a decidir cuáles son las causas principales de este problema. Solución: Ordene las categorías de la tabla según la frecuencia en orden descendente.
Calcule la frecuencia absoluta acumulada, frecuencia relativa, la frecuencia relativa acumulada y la frecuencia porcentual acumulada.
Pág. ¡Exigencia académica para grandes cambios!
134
ESTADÍSTICA
Como las dos últimas categorías tienen una cantidad muy baja podemos unirlas en otro rubro denominado “Otros”. Así tenemos:
Seleccionar las celdas que contienen la frecuencia absoluta (f i) y frecuencia porcentual (Pi).
Elegimos como tipo de gráfico “Columnas”, el cual está marcado por defecto.
Pág. ¡Exigencia académica para grandes cambios!
135
ESTADÍSTICA 120 100 80 Series1
60
Series2 40
20 0 1
2
3
4
5
6
Ahora pulsamos con el botón derecho del mouse en cualquiera de las barras P i. Clic en Cambiar tipo de gráfico en serie y elegimos tipo de gráfico Líneas y Aceptar.
Se mostrará el siguiente gráfico:
Pág. ¡Exigencia académica para grandes cambios!
136
ESTADÍSTICA 120 100 80 60
Series1
40
Series2
20 0 1
2
3
4
5
6
En él ahora tenemos que hacer algunas modificaciones.
En primer lugar, la escala de valores de la izquierda, cuyo valor máximo viene siendo 120 cuando debería de ser 100. Para ello, clic con el botón derecho del mouse sobre la línea del eje Y. Seleccionar Dar formato a ejes. Seleccionar Opciones de eje Opciones de eje y dar el valor máximo 100. Clic en Cerrar. Aparecerá:
100 90 80 70 60 50 40 30 20 10 0
Series1 Series2
1
2
3
4
5
6
Pág. ¡Exigencia académica para grandes cambios!
137
ESTADÍSTICA
Luego pulsamos con el botón derecho del mouse sobre cualquiera de los puntos de la línea y elegimos la opción Dar formato a serie de datos. En el recuadro Opciones de serie, seleccionar Eje secundario. Luego Cerrar.
Ahora el gráfico se verá de la siguiente manera: 100
120.00
80
100.00 80.00
60
60.00 40
40.00
20
20.00
0
0.00 1
2
3
4
5
Series1 Series2
6
Pág. ¡Exigencia académica para grandes cambios!
138
ESTADÍSTICA Se procede igual que en el paso anterior para modificar los valores del eje de la derecha que está entre 0 y 120, debiendo de estar entre 0 y 100. 100
100.00
90
90.00
80
80.00
70
70.00
60
60.00
50
50.00
Series1
40
40.00
Series2
30
30.00
20
20.00
10
10.00
0
0.00 1
2
3
4
5
6
Ahora colocaremos los valores sobre los puntos de la línea. Modificaremos los valores de los rótulos y agregaremos el título del gráfico.
100 90 80 70 60 50 40 30 20 10 0
86.17
92.55
76.60 71
63.30 48
37.77 25 18
12
Error en los Error en la Error en la Error en el Orden de productos cantidad de orden de empacado compra no empacados envío compra registrada en el sistema
14
100.00 90.00 80.00 70.00 60.00 50.00 40.00 30.00 20.00 10.00 0.00
Porcentaje
Frecuencias
DISTRIBUCIÓN DE ERRORES POR ORDEN QUE NO SE ENTREGAN A TIEMPO, SEGÚN TIPO DE ERROR 100.00
Otros
Tipo de error
2.5 Tablas de contingencia y gráfico de barras agrupadas: El presente ejercicio tiene como finalidad que el alumno maneje los procedimientos para la elaboración de una tabla de contingencia o de doble entrada. Las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables nominales u ordinales. Para ello, trabajaremos con los datos de la encuesta a estudiantes de Estadística 1. Elegimos juntas a las variables SEXO y DEPORTE FAVORITO.
Pág. ¡Exigencia académica para grandes cambios!
139
ESTADÍSTICA
Tabla de contingencia: Seleccione el rango de datos de las variables SEXO y DEPORTE FAVORITO. De ser necesario, copiarlas en otra parte de la hoja una junto a la otra. Active en la barra de menú la opción Insertar y luego Tabla dinámica.
Aparecerá la siguiente pantalla:
Pág. ¡Exigencia académica para grandes cambios!
140
ESTADÍSTICA Luego copie la tabla y péguela en otra posición. Recuerde pegar sólo los valores. Puede darle el formato final.
Gráfico de barras agrupadas: Tomando como base la tabla de frecuencias obtenida en el punto anterior, elaboramos el gráfico de columnas de la variable Deporte favorito por Sexo. Seleccionamos los datos:
Clic en Insertar de la barra de menú. Active el icono Columnas agrupadas. 20 15 Mujer
10
Varón 5
0 Basket Ciclismo Fútbol Ninguno Otros
Voley
Hacer doble clic en el área del gráfico y aparecerá la pestaña Herramientas de gráficos. Agregar el título, etiquetas de datos y rótulos de ejes. Quedará de la siguiente forma:
DISTRIBUCIÓN POR DEPORTE FAVORITO, SEGÚN SEXO
Frecuencias
20
17
15 10 5
7 3
7 1
1
7
5
1
3
0 Basket
Ciclismo
Fútbol
Ninguno
Otros
Voley
Deporte Mujer
Varón
Pág. ¡Exigencia académica para grandes cambios!
141
ESTADÍSTICA 2.6 Diagrama de dispersión: Haremos el diagrama de dispersión de las variables Estatura y Peso de la base de datos de la encuesta a los alumnos de Estadística 1. Seleccionamos el rango de los datos de ambas variables y active Insertar y elija Dispersión. Seleccione la primera opción y aparecerá el siguiente gráfico. 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0
Series1
0
20
40
60
80
100
Marque cualquiera de los puntos azules y de clic con el botón derecho del mouse. Marque la opción Agregar línea de tendencia… del menú desplegable.
Luego cerrar. Además puede agregar el título del gráfico y rotular los ejes. Finalmente quedará como se muestra.
DIAGRAMA DE DISPERSIÓN DE PESOS VS ESTATURAS
Estaturas
2.00 1.50 1.00 0.50 0.00
0
20
40
60
80
100
Pesos
Pág. ¡Exigencia académica para grandes cambios!
142
ESTADÍSTICA TEMA Nº 3: MEDIDAS DESCRIPTIVAS 3.1 Haciendo uso de funciones: Vamos a calcular algunas medidas descriptivas de la variable PESO de la base de datos de la encuesta a estudiantes del curso de Estadística 1. Para ello nos ubicamos en una celda de la hoja y hacemos clic en icono Insertar función. En el cuadro de diálogo O seleccionar una categoría seleccione Estadísticas y seleccione la función PROMEDIO.
En Número1 ingrese el rango correspondiente a los datos y luego haga clic en Aceptar.
Se mostrará el valor del promedio de los datos en la celda marcada:
El mismo procedimiento lo podemos aplicar para el cálculo de otros estadísticos descriptivos.
Pág. ¡Exigencia académica para grandes cambios!
143
ESTADÍSTICA
3.2 Haciendo uso de la herramienta Estadística descriptiva: Otra opción fácil de emplear para calcular las principales medidas descriptivas es usando la barra de menú Datos, luego Análisis de datos y Estadística descriptiva.
En la ventana de Estadística descriptiva, en Rango de entrada ingrese el rango de las celdas donde están los datos. La opción Rótulos de la primera fila selecciónela sólo si la primera fila del rango de datos corresponde al nombre de la variable. Active la opción Resumen de estadísticas y en Rango de salida elija una celda en donde colocar los resultados (también puede elegir una nueva hoja o un libro nuevo).
TEMA Nº 4: ANÁLISIS EXPLORATORIO DE DATOS
Pág. ¡Exigencia académica para grandes cambios!
144
ESTADÍSTICA 4.1 Diagrama de caja: Vamos a realizar el análisis exploratorio de las variables GASTO ALIMENTACIÓN, GASTO EN MOVILIDAD Y GASTO EN DIVERSIÓN. Para ello, copiamos dichos datos uno a continuación de otro como se muestra a continuación. Debemos recordar que para realizar dicho análisis comparativo debemos de contar con 5 valores importantes, los cuales son: Dato mínimo, cuartil 1, mediana, cuartil 3 y dato máximo.
Ahora, en la parte inferior de las tres columnas vamos a crear un cuadro donde calcularemos dichos valores, haciendo uso de las funciones estadísticas de Excel. Así tenemos:
Luego creamos otra tabla donde se calculan las dimensiones del gráfico:
A B C D E A: Está dado por el mismo valor del cuartil 1 calculado en la tabla superior.
Pág. ¡Exigencia académica para grandes cambios!
145
ESTADÍSTICA B: Está dado por la diferencia entre la mediana y el cuartil 1 de la tabla superior. C: Está dado por la diferencia entre el cuartil 3 y la mediana de la tabla superior. D: Está dado por la diferencia entre el máximo y el cuartil 3 de la tabla superior. E: Está dado por la diferencia entre el cuartil 1 y el mínimo de la tabla superior. Ahora vamos a realizar el gráfico. Para ello, seleccionamos los nombres de variable y presionando CTRL los valores de A, B y C.
A B C D E Luego elegimos el menú Insertar y elegimos gráfico de Columnas agrupadas.
500 400 300
Series3 Series2
200
Series1 100
0 ALIMENTACION
MOVILIDAD
DIVERSION
Pág. ¡Exigencia académica para grandes cambios!
146
ESTADÍSTICA 500 400 300 200 100 0
Series3
Ahora vamos a modificar algunas partes del gráfico. Elegimos la parte superior de las barras, haciendo clic en cualquiera de ellas. Se activará la ventana Herramientas de gráficos y en ella elegimos la pestaña Presentación y la opción Barras de error.
Series2 Series1
Excel presentará la siguiente ventana, en la cual elegimos la opción Más opciones de barras de error…
En Mostrar elegir la opción Más. En Cuantía de error, elegir el botón Personalizado y presionar el botón Especificar valor
En Valor de error positivo ingrese el rango de los valores del máximo de la última tabla calculada anteriormente.
Se mostrará el gráfico de la siguiente forma: Pág. ¡Exigencia académica para grandes cambios!
147
ESTADÍSTICA 700 600 500 400 300 200 100 0
Series3 Series2 Series1
Ahora hacemos lo mismo en la parte inferior de las barras para modificar el gráfico. Seleccionamos haciendo clic en cualquier rectángulo que se encuentra bajo las barras y aparecerá nuevamente Herramientas de gráficos, seleccionamos nuevamente Barras de error, Más opciones de las barras de error… y ahora elegimos en Mostrar los valores Menos y en Cuantía de error hacemos clic en Personalizado.
En Valor de error negativo ingrese el rango de los valores del mínimo de la última tabla calculada anteriormente.
700 600 500 400 300 200 100 0
Series3 Series2 Series1
Pág. ¡Exigencia académica para grandes cambios!
148
ESTADÍSTICA Ahora hacemos clic en cualquier barra y en Herramientas de gráficos, pestaña Formato seleccionamos la opción Relleno de forma y elegimos Sin relleno.
Finalmente, el gráfico quedará como:
700
GASTOS EN ALIMENTACIÓN, MOVILIDAD Y DIVERSIÓN
600 500 400 300 200 100 0 ALIMENTACION
MOVILIDAD
DIVERSION
Otra forma de hacerlo es la siguiente: Calcule los cuartiles, la mediana, el mínimo y el máximo y escríbalos de la siguiente manera (en el orden en que se presentan):
Mantener este orden
Luego seleccione toda la tabla y elija:
Pág. ¡Exigencia académica para grandes cambios!
149
ESTADÍSTICA
700 600 ALIMENTACIÓ N
500 400
MOVILIDAD
300
200
DIVERSIÓN
100 0 Q1 MIN Me MAX Q3 Luego, en la barra de menú escoger Insertar, luego Diseño y finalmente Cambiar entre filas y columnas. El gráfico cambiará a: 700 600 500 400 300 200 100 0
Q1 MIN Me MAX Q3
Marque cualquiera de las líneas horizontales y haga clic con el botón derecho del mouse. Elija la opción Formato de serie de datos. Luego aparece la siguiente ventana: En ella elija la opción Color de línea y marque la Sin línea. Con esto eliminará la línea horizontal. Hay que repetir este proceso hasta eliminar todas las líneas. El gráfico quedará como sigue: 700 600 500
Q1
400
MIN
300
Me
200
MAX
100
Q3
0 ALIMENTACIÓN
MOVILIDAD
DIVERSIÓN
Pág. ¡Exigencia académica para grandes cambios!
150
ESTADÍSTICA
Luego dé clic en el gráfico y elija la opción Análisis, Barras ascendentes o descendentes y nos dará como resultado:
700 600 500 400 300 200 100 0
Q1 MIN Me MAX Q3
Luego para hacer los bigotes de las cajas, se selecciona Análisis, Líneas y luego Líneas de máximos y mínimos. 700 600 500 400 300 200 100 0
Q1 MIN Me MAX Q3
TEMA Nº 5: DISTRIBUCIÓN DE PROBABILIDADES 5.1 Distribución binomial:
n P k pk .qnk k Donde: p = Probabilidad del éxito q = Probabilidad del fracaso n = Número de ensayos
Pág. ¡Exigencia académica para grandes cambios!
151
ESTADÍSTICA k = Número de éxitos esperados Propiedades: Media: x n.p
Varianza: 2x n.p.q
Desviación estándar: x n.p.q
Ejemplo 1: Un examen de Estadística de elección múltiple contenía 20 preguntas y cada una de ellas tenía 5 alternativas de respuesta. Si un estudiante desconocía todas las respuestas correctas y contestó su examen al azar: a) ¿Cuál es la probabilidad de que conteste correctamente 5 preguntas?, b) ¿Cuál es la probabilidad de que conteste correctamente a lo más 5 preguntas? Solución a): Hacer clic en Insertar función. Cuando se abre el cuadro de diálogo, elegir la categoría Estadísticas y la función DISTR.BINOM.N y pulsar Aceptar.
En la ventana que aparece elegir: k=5 n = 20 p = 1/5 = 0.2 En el recuadro Acumulado digitar 0 para hallar la probabilidad P(X=5), es decir la probabilidad de contestar de manera correcta exactamente 5 preguntas.
Excel devolverá la probabilidad en una celda de la hoja activa.
Pág. ¡Exigencia académica para grandes cambios!
152
ESTADÍSTICA Solución b): Repetir todos los pasos anteriores, pero con la única diferencia de que ahora ingresamos 1 en la casilla Acumulado. k=5 n = 20 p = 1/5 = 0.2 En el recuadro Acumulado digitar 1 para hallar la probabilidad P(X<5), es decir la probabilidad acumulada de contestar correctamente 0, 1, 2, 3, 4 ó 5 preguntas.
5.2 Distribución Hipergeométrica:
r N r x n x P x ; (para 0 x r) N n Donde: N = Tamaño de la población r = Número de éxitos en la población x = Número de éxitos que son de interés n = Número de ensayos Propiedades:
r Media: x n N r N n r Varianza: 2x n 1 N N N 1
Ejemplo 2: En un lote de 150 computadoras de la marca IBM, existen 40 computadoras con el disco duro dañado. Un comprador desea adquirir todo el lote, pero lo hará siempre y cuando, al elegir 60 computadoras al azar, al probarlas a lo más 3 de ellas estén dañadas. Calcule: ¿Cuál es la probabilidad de que 2 de las computadoras estén dañadas?, b) ¿Cuál es la probabilidad de que el comprador no adquiera el lote? Solución a): Hacer clic en Insertar función. Cuando se abre el cuadro de diálogo, elegir la categoría Estadísticas y la función DISTR.HIPERGEOM.N y pulsar Aceptar.
Pág. ¡Exigencia académica para grandes cambios!
153
ESTADÍSTICA
Aparecerá la siguiente ventana: N = 150 r = 40 x =2 n = 60 En el recuadro Acumulado digitar 0 para hallar la probabilidad P(X=2), es decir la probabilidad de hallar exactamente 2 computadoras dañadas.
Excel mostrará:
Lo cual indica que la probabilidad de encontrar sólo 2 computadoras dañadas es muy baja.
Solución b): Para no aceptar el lote, se debe cumplir que X>3, es decir, encontrar más de 3 computadoras dañadas en la muestra de 60 computadoras. Para calcular dicha probabilidad haremos uso del suceso complementario, es decir, a la probabilidad del espacio muestral que es igual a 1, le restamos la probabilidad acumulada para x=0; x=1; x=2; x=3.
Pág. ¡Exigencia académica para grandes cambios!
154
ESTADÍSTICA Hacer clic en una celda vacía e ingresar:
Cuando se abre el cuadro de diálogo de la función DISTR.HIPERGEOM.N completarlo de la siguiente manera:
Hasta aquí estamos calculando la probabilidad de encontrar a lo más 3 computadoras dañadas. En el recuadro Acumulado digitar 1 para hallar la probabilidad P(X<3), es decir la probabilidad de hallar de 0 a 3 computadoras dañadas.
Excel mostrará la siguiente respuesta:
Lo cual indica que es casi seguro que el comprador no acepte el lote. 5.3 Distribución de Poisson:
X .e P x ; e 2,71828 x! Donde: λ = Número promedio de ocurrencias por intervalo. x = Número de éxitos que se esperan. Propiedades: Media aritmética = x Varianza = 2x Ejemplo 3: En una farmacia del distrito de El Tambo se observó que en las últimas 84 horas de atención al público (12 horas diarias durante una semana), 1 176 personas han ingresado a la farmacia. Se desea conocer la probabilidad de que 8 personas ingresen en el lapso de una hora de atención al público. Solución:
Pág. ¡Exigencia académica para grandes cambios!
155
ESTADÍSTICA Al observar que 1176 personas han ingresado a la farmacia en 84 horas, podemos ver que dicho promedio no está en función de una hora, tal como lo pide la pregunta. Por lo tanto, convertimos el promedio a una hora: 1 176/84 = 14 personas por hora. Hacer clic en Insertar función. Cuando se abre el cuadro de diálogo, elegir la categoría Estadísticas y la función POISSON.DIST y pulsar Aceptar.
Aparecerá la ventana: x=8 λ = 14 En el recuadro Acumulado digitar 0 para hallar la probabilidad P(X=8), es decir la probabilidad de que ingresen a la farmacia exactamente 8 personas en una hora.
Excel mostrará:
5.4 Distribución Normal: Ejemplo 1: Una máquina dispensadora de refrescos está ajustada para servir un promedio de 200 mililitros por vaso. Si la cantidad de refresco está normalmente distribuida con una desviación estándar de 15 mililitros. a) ¿Cuál es la probabilidad de que un vaso contenga menos de 224 mililitros? b) ¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209 mililitros?
Pág. ¡Exigencia académica para grandes cambios!
156
ESTADÍSTICA c) ¿Cuál es la probabilidad de que un vaso se derrame si se utilizan vasos de 230 mililitros? d) ¿Debajo de qué valor se obtiene el 25% de refrescos con menor contenido? Solución a): Seleccione Insertar función y elija la categoría Estadísticas y la función DISTR.NORM.N, luego pulse Aceptar.
Aparecerá la siguiente ventana:
En el recuadro Acumulado digitar 1 para que calcule la probabilidad acumulada.
Excel mostrará:
Solución b): Para calcular P(191 < X < 209) se calculará la diferencia: P(X < 209) – P(X < 191) En la barra de fórmulas ingrese:
Pág. ¡Exigencia académica para grandes cambios!
157
ESTADÍSTICA
En la ventana DISTR.NORM.N ingrese los siguientes valores, luego pulse Aceptar.
En el recuadro Acumulado digitar 1 para que calcule la probabilidad acumulada.
Excel mostrará:
Solución c): La probabilidad de que un vaso se derrame es P(X>230), entonces aplicando el complemento tenemos: P(X>230) = 1-P(X<230) = 1-DISTR.NORM.N(230,200,15,1) = 1-0,97725 = 0,02275 Solución d): El cálculo requiere utilizar la función inversa dado que el dato es la probabilidad y la incógnita es el valor de la variable. Seleccione Insertar función y elija la categoría Estadística y en ella la función INV.NORM Se mostrará la siguiente ventana:
Pág. ¡Exigencia académica para grandes cambios!
158
ESTADÍSTICA
Luego complete la ventana con los siguientes valores:
Excel mostrará:
Que viene a ser el valor debajo del cual se obtiene el 25% de refrescos con menor contenido.
Pág. ¡Exigencia académica para grandes cambios!
159
ESTADÍSTICA
ANEXO N°2
Pág. ¡Exigencia académica para grandes cambios!
160
ESTADÍSTICA
GUIA DEL IBM SPSS STATISTICS 20
IBM SPSS Statistics es un software estadístico muy utilizado para trabajos de investigación en ciencias sociales y en empresas de investigación de mercado. Originalmente fue creado como el acrónimo de Statistical Package for the Social Sciences. Fue creado en 1968 por Norman H. Nie, C. Hadlai Hull y Dale H. Bent. Originalmente el programa fue creado para grandes computadoras. En 1970 se publica el primer manual de usuario del programa y en 1984 sale la primera versión para computadoras personales. Es un sistema amplio y flexible de análisis estadístico y gestión de información que es capaz de trabajar con datos procedentes de distintos formatos, generando desde sencillos gráficos de distribuciones y estadísticos descriptivos hasta análisis estadísticos complejos que nos permitirán descubrir relaciones de dependencia e interdependencia, establecer clasificaciones de sujetos y variables, predecir comportamientos, etc. Su aplicación fundamental está orientada al análisis multivariante de datos experimentales.
Tema Nº 1: PROCEDIMIENTOS BÁSICOS CON IBM SPSS STATISTICS 20
1.1 Procedimiento general de resolución de un problema con SPSS Recoger información del problema que se desea investigar y tenerla organizada generalmente en papel. Grabar esa información en un archivo de datos de SPSS, el cual tiene el nombre que deseamos, pero que forzosamente posee la extensión .SAV. Sobre tal archivo de datos se llevará a cabo el análisis con SPSS, usando diferentes procedimientos, que como se verá, se seleccionan de distintos menús. Los resultados de tales análisis son volcados a un visor de resultados, en el que su visualización y edición es más cómoda, y pueden guardarse en un fichero con el nombre que se desee, pero de extensión .SPV. El investigador interpreta los resultados y extrae las conclusiones que le parecen relevantes de los mismos.
1.2 El entorno del IBM SPSS Statistics 20; La pantalla principal del SPSS presenta dos ventanas principales: Vista de datos y Vista de variables a las cuales se puede acceder dando un clic en las pestañas ubicadas en la parte inferior izquierda.
Pág. ¡Exigencia académica para grandes cambios!
161
ESTADÍSTICA
La ventana Vista de datos contiene el archivo de datos sobre el que se basa la mayor parte de las acciones que es posible llevar a cabo con el SPSS. El Editor de datos se abre automáticamente cuando se entra en el SPSS. En esta ventana las filas indican los casos y las columnas las variables. Cada celda corresponde al valor que una determinada variable adopta en un cierto caso.
Mientras que en la ventana Vista de variables se define la estructura de las variables que comprende la tabla de datos. En esta ventana se describen las características de cada una de las variables con que se está trabajando. En ella, las filas corresponden a cada variable y las columnas nos permiten acceder a sus características. Nombre: Limitado a 64 caracteres, no puede incluir espacios ni caracteres especiales como *, $, ¿, etc.
Tipo de variable:
Pág. ¡Exigencia académica para grandes cambios!
162
ESTADÍSTICA
Numérico: Número en formato estándar. Coma decimal: Número con comas cada tres posiciones y con un punto como límite delimitador de los decimales.. Punto decimal: Número con puntos cada tres posiciones y con una coma como límite delimitador de los decimales. Notación científica: Número que se expresa con un formato tal que se sigue de una E y un número que expresa la potencia de 10 a la que se multiplica la parte numérica previa. Fecha: Permite establecer el formato para ingresar datos que sean fechas. Dólar: Formato numérico con el que se expresan cantidades en dólares. Moneda personalizada: Formato numérico con el que se expresan cantidades en la moneda definida en la pestaña de monedas del cuadro de diálogo Opciones. Cadena: Caracteres o variable alfanumérica.
Anchura: Establece el número de cifras o dígitos que contendrá cada dato, incluidas las cifras decimales.
Decimales: Establece el número de cifras decimales que serán consideradas en cada dato.
Etiqueta: Con esta opción usted puede asignar un nivel más descriptivo a sus variables ya que la opción Nombre no le permite utilizar más de 64 caracteres por variable.
Valores: Con esta opción usted puede asignar valores numéricos a todas sus variables categóricas, es decir, codificarlas.
Perdidos: Esta opción le permite asignar un valor alternativo cuando se encuentren celdas vacías en los datos.
Medida: Esta opción le permitirá especificar si la escala de la variable es de tipo ordinal, nominal o de escala.
Pág. ¡Exigencia académica para grandes cambios!
163
ESTADÍSTICA
Otra ventana que aparece en SPSS es El Visor de resultados, en la cual se recoge toda la información (estadísticos, tablas, gráficos, etc.) que el SPSS genera como consecuencia de las acciones que lleva a cabo. Permite editar los resultados y guardarlos para su uso posterior.
1.3 Creación de una base de datos: Se desea crear una base de datos en función a la encuesta presentada al inicio del módulo. Para ello ingrese en la ventana Vista de variables y defina cada uno de los campos de la estructura de las variables. Algunas variables, como la variable Sexo, tienen valores predefinidos o codificados. Para definir dicha codificación se hace uso de las etiquetas de valor en la opción Valores de la vista de variables.
Pág. ¡Exigencia académica para grandes cambios!
164
ESTADÍSTICA
Se debe escribir el código en el recuadro Valor y en el recuadro Etiqueta se debe digitar el nombre que se le asigna al valor. Finalmente se da un clic en el botón Añadir. La estructura propiamente dicha de la base de datos de nuestra encuesta quedará de la siguiente manera:
Luego de crear la estructura de la base de datos se procede a ingresar la información de la misma forma que se haría en una hoja electrónica como Excel. La ventana Vista de datos se verá de esta forma:
Pág. ¡Exigencia académica para grandes cambios!
165
ESTADÍSTICA
El botón
permite alternar entre las etiquetas de datos y los números de codificación.
1.4 Guardar la base de datos: Ingrese a la opción Archivo de la Barra de Menú y posteriormente elija Guardar como. Aparecerá la siguiente ventana:
Especifique el nombre en el recuadro Nombre de Archivo, por defecto SPSS guarda los archivos con extensión sav. 1.5 Leer/Importar un archivo de datos:
Pág. ¡Exigencia académica para grandes cambios!
166
ESTADÍSTICA SPSS nos permite abrir una base de datos creada en el mismo programa (leer) como bases de datos creadas en otros programas similares (importar) tales como Excel, Lotus, dBase, etc. Para ello ingrese a la opción Archivo de la barra de menús y elija la opción Abrir y la sub opción datos.
Pág. ¡Exigencia académica para grandes cambios!
167
ESTADÍSTICA Tema Nº 2: MANIPULACIÓN DE CASOS Y VARIABLES
1.1. Variables: Esta opción, accesible desde el ícono ubicado en la barra de herramientas estándar, permite obtener información de las variables que intervienen en el archivo de trabajo activo. Al presionar en él resulta el siguiente cuadro de diálogo.
Si queremos información de otra variable, simplemente hacemos clic en la variable requerida y se mostrará la información de manera similar a la anterior.
1.2. Buscar datos: Para buscar un valor específico de una variable primero hay que ubicarse en una celda cualquiera de la columna respectiva. La ventana Buscar datos en … nos pedirá el valor a buscar y si la búsqueda se hará hacia adelante o hacia atrás. La búsqueda comienza a partir de la celda seleccionada.
Es posible ignorar las minúsculas o mayúsculas presionando sobre la casilla de verificación en el botón Mostrar opciones.
Pág. ¡Exigencia académica para grandes cambios!
168
ESTADÍSTICA
1.3. Ir a caso / variable: Permite desplazarse al caso especificado por el número de fila de la tabla SPSS o a una variable específica. Luego de ingresar el caso especificado se pulsa el botón Aceptar y se obtiene el resultado buscado.
1.4. Insertar variable:
Permite insertar una variable (en blanco) en la posición en que se encuentra el cursor, desplazando todas las columnas hacia la derecha y nombrando a dicha variable por defecto.
1.5. Insertar caso: Permite insertar un caso (en blanco) en la posición en que se encuentre el cursor, desplazando todas las filas hacia abajo. 1.6. Ordenar casos: Se pueden ordenar los casos de acuerdo a una o más variables, ya sea en forma ascendente o descendente, tanto numérica como alfabéticamente.
Pág. ¡Exigencia académica para grandes cambios!
169
ESTADÍSTICA
1.7. Dividir o segmentar archivo: Esta opción es útil cuando un mismo análisis se quiere repetir para distintos subgrupos de sujetos. Imaginemos que un análisis descriptivo de los datos debe ser realizado para los subgrupos de hombres y de mujeres. Una opción sería filtrar los datos primero para hombres, realizar seguidamente el análisis y posteriormente cambiar el filtro para las mujeres y repetir el análisis. Segmentando el archivo según el sexo produciría los mismos resultados pero de forma más sencilla. Al seleccionar esta opción, se abre un nuevo cuadro de diálogo en el que encontramos tres diferentes opciones de segmentación.
Pág. ¡Exigencia académica para grandes cambios!
170
ESTADÍSTICA La primera opción del cuadro es Analizar todos los casos, no crear los grupos; esta opción nos permite trabajar con todos los casos de la base y calcular los resultados de los estadísticos empleando la totalidad de los casos u observaciones. La segunda opción corresponde a Comparar los grupos; esta opción nos permite comparar los resultados de los procedimientos que se realicen con el programa para las categorías de la variable de agrupación; para realizar la comparación el programa realiza los cálculos solamente con los datos de cada categoría y presenta los resultados de forma comparativa; es decir ubica de forma jerárquica los resultados de cada categoría (por ejemplo: tabla categoría 1, tabla categoría 2, gráfico categoría 1, gráfico categoría 2, estadístico categoría 1, estadístico categoría 2).
El resultado de la segmentación al calcular estadígrafos y elaborar una tabla de frecuencias sería:
Pág. ¡Exigencia académica para grandes cambios!
171
ESTADÍSTICA La tercera opción corresponde a Organizar los resultados por grupos; esta opción es muy similar a la opción anterior, con la diferencia que los resultados de los procedimientos que se realicen con el programa se representan en forma organizada (Por ejemplo: Tabla Cat1, Gráfico Cat1, Estadístico Cat1, Tabla Cat2, Gráfico Cat2, Estadístico Cat2). Esta opción es bastante útil si nosotros deseamos hacer un análisis separado de la muestra por algún tipo de “rangos”, como por ejemplo el género, la región, la fecha, etc.
Pág. ¡Exigencia académica para grandes cambios!
172
ESTADÍSTICA
Para realizar la segmentación de archivo debemos seleccionar una de las dos últimas opciones, de manera que se active la casilla “Grupos basados en”; una vez se activa se ingresa en ella la variable o las variables que deseamos utilizar como rango y finalmente hacemos clic en Aceptar. Después de segmentar el archivo, cada procedimiento (tablas, gráficos o estadísticos) que se realice con el programa, mostrará los resultados de acuerdo a la segmentación. 1.8. Seleccionar casos: A través de esta opción, podemos seleccionar solamente los casos que cumplan con los criterios que el investigador imponga; por ejemplo, las personas del género femenino. A su vez, este procedimiento nos brinda la oportunidad de pedirle al programa que tome un fragmento de los casos de forma aleatoria. Al activar la selección de casos el programa realiza los cálculos de los procedimientos sólo con los casos que hayan sido seleccionados.
Podemos seleccionar solamente a las mujeres de la base de datos anterior. Para ello elegimos la opción Si se satisface la condición. En ella, se elige la variable que servirá como condición para la selección, que en nuestro caso es el sexo del encuestado. Seguidamente, teniendo elegida la variable la igualamos al valor “2” que viene a ser la codificación con la que se creo la base de datos. Con esto habremos seleccionado sólo a las mujeres que conforman la base de datos, lo cual se verá reflejado en la Ventana de datos con una tarja sobre los registros correspondientes a varones. A partir de ahora, toda operación que se realice, ya sea cálculo de un estadígrafo, tabla o gráfico se hará únicamente con los registros de datos correspondientes a mujeres.
Pág. ¡Exigencia académica para grandes cambios!
173
ESTADÍSTICA
La Vista de datos se mostrará de la siguiente manera:
Pág. ¡Exigencia académica para grandes cambios!
174
ESTADÍSTICA Si ahora deseamos seleccionar a todas las mujeres que tienen como distrito de residencia El Tambo, SPSS cuenta con la posibilidad de crear condiciones compuestas, haciendo uso del operador lógico ampersand “&”. Para ello ingresamos la condición compuesta:
El resultado será:
Los recuadros muestran los registros que quedaron seleccionados, donde sólo aparecen mujeres que viven en El Tambo.
1.9. Calcular variable: Permite efectuar operaciones matemáticas con los valores de las variables. Es posible crear una nueva variable que sea el producto de una transformación en la misma variable o de otras variables existentes. Para ello, elija Transformar de la barra de menús y elija la opción Calcular variable, mostrando la siguiente pantalla.
Pág. ¡Exigencia académica para grandes cambios!
175
ESTADÍSTICA
En ella podemos elegir las variables que servirán para hacer el cálculo e indicar la nueva variable que contendrá el resultado.
Pág. ¡Exigencia académica para grandes cambios!
176
ESTADÍSTICA El procedimiento anterior habrá creado la variable GASTO_PROM y la colocará en la última columna de la Vista de datos.
1.10.Recodificar: En las mismas variables / En diferentes variables Esta opción transforma valores (reasigna valores) o rangos de valores de variables existentes en nuevos valores. Estos nuevos valores o rango de la transformación pueden asignarse en las mismas variables o en diferentes variables. En la misma variable: Supongamos que deseamos recodificar a las personas de nuestra base de datos que han leído 2 libros o menos, con la cantidad de 0 libros, es decir, se considera que haber leído 2 libros es como no haber leído nada. Originalmente la base es:
Pág. ¡Exigencia académica para grandes cambios!
177
ESTADÍSTICA
Para recodificar en la misma variable accedemos al menú Transformar y elegimos la opción Recodificar en las mismas variables. Aparecerá una ventana de diálogo donde aparecen las opciones de recodificación.
La primera opción es Valores antiguos y nuevos. En esta ventana se especifica cuáles son los valores antiguos que han de ser remplazados y cuáles son los valores nuevos que remplazarán. En este caso elegimos el recuadro Valor antiguo y la quinta opción Rango, INFERIOR hasta valor, ya que deseamos que recodifique a las personas que leyeron de 0 libros a 2 libros, inclusive. En dicho casillero ingresamos el número 2. Luego, en el recuadro Valor nuevo, elegimos la opción Valor y asignamos 0. Finalmente, hacemos clic en Añadir. Finalmente elegimos Continuar y SPSS mostrará la recodificación.
Recodifica un valor específico
Recodifica un rango de datos por un valor específico
Recodifica desde cierto valor para adelante.
Una vez especificados una serie de rangos o valores antiguos para un conjunto de valores, a los demás los recodifica por cierto nuevo valor. Es decir, se puede recodificar más de un grupo de valores antiguos.
Dicha recodificación ser verá así:
Pág. ¡Exigencia académica para grandes cambios!
178
ESTADÍSTICA En diferente variable: Ahora suponga que queremos recodificar a las personas que han leído exactamente 3 libros con el número 99. Pero esta vez, queremos recodificar en una nueva variable. Originalmente la base es:
Ahora elegimos el menú Transformar, y la opción Recodificar en distintas variables. Primero: Elegimos la variable L_LEIDOS y la pasamos a la ventana Variable numéricaVariable de resultado. Segundo: Le damos un nombre a la nueva variable que almacenará la recodificación y agregamos la etiqueta: “Sólo 3 libros”. Tercero: Hacemos clic en Cambiar. Las variables aparecen unidas en la ventana por una flecha.
Seguidamente seleccionamos la ventana Valores antiguos y nuevos haciendo clic en botón. Dicha ventana al igual la anterior nos pedirá cuáles son los valores antiguos que serán remplazados y cuáles los valores nuevos que remplazarán a los anteriores.
el que
La ventana que se mostrará será la siguiente:
Pág. ¡Exigencia académica para grandes cambios!
179
ESTADÍSTICA
Ahora elegimos el recuadro Valor antiguo y en la opción Valor ingresamos el número 3 (esto porque sólo queremos remplazar a los que leyeron exactamente 3 libros) y en Valor nuevo, ingresamos 99 en la opción Valor. Luego presionamos el botón Añadir y finalmente Continuar. SPSS creará una nueva variable con el nombre especificado y en ella realizará la recodificación.
Pág. ¡Exigencia académica para grandes cambios!
180
ESTADÍSTICA Tema Nº 3: ANÁLISIS ESTADÍSTICO DESCRIPTIVO TABLAS Y GRÁFICOS ESTADÍSTICOS 3.1 Gráficos estadísticos en IBM SPSS STATISTICS: Nos proporcionan una idea del comportamiento global de una determinada variable. El SPSS nos proporciona una amplia gama de representaciones gráficas. Para obtenerlas tenemos varias alternativas: Bien directamente usando el menú Gráficos, o bien indirectamente, al utilizar determinados procedimientos estadísticos del SPSS (del menú Analizar) que incluyen gráficos relacionados con la técnica seleccionada. 3.2 Mediante el menú ANALIZAR: Para ello accedemos al menú ANALIZAR y la opción Estadísticos Descriptivos, opción Frecuencias. El procedimiento Frecuencias proporciona estadísticos y representaciones gráficas que resultan útiles para describir muchos tipos de variables. El procedimiento Frecuencias es un comienzo para empezar a consultar los datos.
Aparecerá la siguiente ventana:
Permite acceder al menú de los tres principales tipos de gráficos estadísticos que tiene el procedimiento
Permite modificar la manera en que se presentan los datos en las tablas y gráficos.
Si esta opción se encuentra marcada, SPSS creara la tabla de frecuencias para la variable seleccionada.
OPCIÓN GRÁFICOS: Tipo de gráfico. Los gráficos de sectores muestran la contribución de las partes a un todo. Cada sector de un gráfico de este tipo corresponde a un grupo, definido por una única variable de agrupación. Los gráficos de barras muestran la frecuencia de cada valor o categoría distinta como una barra diferente, permitiendo comparar las categorías de forma visual. Los histogramas también cuentan con barras, pero se representan a lo largo de una escala de intervalos iguales. La altura de cada barra es el recuento de los valores que están dentro del intervalo para una variable cuantitativa. Los histogramas muestran la forma, el centro y la dispersión de la distribución. Una curva normal superpuesta en un histograma ayuda a juzgar si los datos están normalmente distribuidos. OPCIÓN FORMATO:
Pág. ¡Exigencia académica para grandes cambios!
181
ESTADÍSTICA Ordenar por. La tabla de frecuencias se puede organizar respecto a los valores actuales de los datos o respecto al recuento (frecuencia de aparición) de esos valores y la tabla puede organizarse en orden ascendente o descendente. Sin embargo, si solicita un histograma o percentiles, Frecuencias asumirá que la variable es cuantitativa y mostrará sus valores en orden ascendente. Múltiples variables. Si desea generar tablas de estadísticos para múltiples variables, podrá mostrar todas las variables en una sola tabla (Comparar variables), o bien mostrar una tabla de estadísticos independiente para cada variable (Organizar resultados según variables). Suprimir tablas con más de “n” categorías. Esta opción impide que se muestren tablas que contengan más valores que el número especificado. 3.3 Gráfico de barras: Permite identificar y comparar de forma visual el comportamiento de las categorías de una variable, generalmente cualitativa. Por medio de las barras podemos conocer aspectos de forma sencilla de una o varias variables, como lo pueden ser sus categorías, frecuencias y las diferencias entre ellas. Para crear la tabla de frecuencias y el gráfico de barras de la variable SEXO de nuestra base de datos, elegimos el menú ANALIZAR, opción Estadísticos descriptivos y sub opción Frecuencias.
Marcamos la opción Mostrar tablas de frecuencias para que SPSS genere automáticamente la tabla de frecuencias para la variable elegida. Luego, en Gráficos elegimos Barras y en Valores del gráfico elegimos Frecuencias. El resultado será: SEXO DEL ENCUESTADO Frecuencia
Válidos
Porcentaje
Porcentaje
Porcentaje
válido
acumulado
MUJER
14
46,7
46,7
46,7
VARÓN
16
53,3
53,3
100,0
Total
30
100,0
100,0
Pág. ¡Exigencia académica para grandes cambios!
182
ESTADÍSTICA
La Ventana de resultados nos permite editar los gráficos y las tablas para personalizar aún más los resultados. Para ello, elija la tabla y haga doble clic, se activará el Editor de tablas, el cual se verá como una línea punteada alrededor de la tabla.
Ahora podemos cambiar el tipo de fuente y su tamaño, colores y demás características concernientes únicamente a las tablas de frecuencias. Para ello haga clic en el botón derecho del ratón, aparecerá la siguiente ventana:
Pág. ¡Exigencia académica para grandes cambios!
183
ESTADÍSTICA
Pág. ¡Exigencia académica para grandes cambios!
184
ESTADÍSTICA 3.4 Gráfico de sectores: Permiten observar la variable de forma global, haciendo una comparación inmediata del porcentaje de cada categoría con el total de datos. Para elaborar el gráfico de sectores de la variable SEXO de nuestra base de datos, seleccionamos el tipo de gráfico sectores de la ventana Gráficos.
El resultado será:
La ventana de resultados también permite modificar las propiedades de los gráficos a través del Editor de gráficos, desde donde podrá cambiar el aspecto como los colores, agregar las etiquetas de valores a cada categoría de la variable, generar gráficos tridimensionales, etc.
Al hacer doble clic sobre cualquier parte del gráfico se activa el Editor de gráficos;
Pág. ¡Exigencia académica para grandes cambios!
185
ESTADÍSTICA
Etiquetas de datos Color de relleno y de borde
Al hacer clic derecho sobre cualquiera de las barras se activa la Ventana Propiedades, desde se puede cambiar a barras tridimensionales, aumentar o disminuir el ancho de las barras, cambiar colores de relleno y borde, tamaño del gráfico, entre otras opciones.
donde
3.5 Histograma:
Pág. ¡Exigencia académica para grandes cambios!
186
ESTADÍSTICA Los histogramas nos permiten identificar diversos parámetros como la dispersión, la distribución y la concentración de los datos en una variable de Escala. Este tipo de gráficos generan una representación visual del comportamiento de los datos, permitiendo observar rasgos característicos como la zona o rango de mayor concentración, la amplitud, los valores extremos, etc. Para elaborar el histograma de la variable ESTATURA de nuestra base de datos, elegimos la opción Histograma de la ventana Gráficos.
Al seleccionar la opción Mostrar curva normal en el histograma se sobrepone una curva normal con la finalidad de comparar si los datos tienen a distribuirse de forma uniforme. El resultado será:
3.6 Diagrama de dispersión:
Pág. ¡Exigencia académica para grandes cambios!
187
ESTADÍSTICA La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables “x1“ y ”x2”. Para obtener un diagrama de dispersión lo haremos desde el menú GRÁFICOS, opción Generador de gráficos. Supongamos que queremos analizar la relación que existe entre las variables PESO y ESTATURA de nuestra base de datos. Para ello elegimos:
Al elegir Generador de gráficos aparecerá esta ventana de advertencia, donde se solicita que las variables tengan el nivel de medición adecuado (nominal, ordinal, escala)
La ventana del Generador de gráficos presenta en la parte superior izquierda las variables que pueden ser utilizadas para crear un gráfico. En la parte superior derecha la ventana de Presentación preliminar del gráfico. En la parte inferior los tipos de gráficos con que cuenta el programa. Seleccionamos el tipo Dispersión Puntos y sin soltar el ratón lo arrastramos hacia la ventana de Presentación preliminar. Luego, elegimos las variables que irán en los ejes X e Y, las cuales también se arrastran a la ventana de presentación y se ubican en los respectivos ejes.
ARRASTRAR
ARRASTRAR
El resultado será el siguiente:
Pág. ¡Exigencia académica para grandes cambios!
188
ESTADÍSTICA
3.7 Diagrama de tallo y hojas: Es una representación en la que los dígitos se dividen entre la parte troncal (izquierda denominada tallo) y la parte marginal (derecha denominada hoja). Los dígitos del tallo se ordenan de arriba abajo y las hojas de izquierda a derecha. Como en el histograma, la longitud de cada hoja corresponde al número de casos que contiene un determinado intervalo. Para elaborar un diagrama de tallos y hojas en SPSS seleccionamos el menú ANALIZAR, opción Estadísticos descriptivos y sub opción Explorar.
SPSS muestra la siguiente ventana, en la cual ya hemos elegido la variable PESO.
En la ventana anterior elegimos la opción Gráficos, donde se mostrará:
Pág. ¡Exigencia académica para grandes cambios!
189
ESTADÍSTICA
El resultado será:
3.8 Tablas de contingencia: Este procedimiento se utiliza para construir una tabla de clasificación de dos o más variables. En Estadística, esta tabla se llama “Tabla de contingencia”. SPSS permite construir esta tabla siempre y cuando sus variables sean de naturaleza categórica y no continua. Supongamos que deseamos analizar el Estado civil según Distrito de residencia de nuestra base de datos. Para ello elegimos el menú ANALIZAR, opción Estadísticos descriptivos y sub opción Tablas de contingencia.
Se abrirá la siguiente ventana:
Pág. ¡Exigencia académica para grandes cambios!
190
ESTADÍSTICA
Indique la variable que se considerará en las filas de la tabla.
Indique la variable que se considerará en las columnas de la tabla.
Permite elegir una variable que servirá para agrupar los resultados.
Permite mostrar un gráfico de barras agrupado, donde se presente el distrito de residencia para cada categoría del estado civil. Evita que se visualice la tabla de contingencia y que sólo se muestre el gráfico de barras agrupadas.
El resultado de la tabla que se mostrará será el siguiente:
Y la gráfica de barras agrupadas:
Pág. ¡Exigencia académica para grandes cambios!
191
ESTADÍSTICA
Pero si ahora quisiéramos obtener la misma tabla, pero agrupada de acuerdo a la variable SEXO, tendremos que ingresar dicha variable en la ventana Capa 1 de 1. El resultado mostrado será el que se presenta en la tabla siguiente, donde la variable SEXO ha servido para separar o agrupar los resultados en la tabla de contingencia.
Pág. ¡Exigencia académica para grandes cambios!
192
ESTADÍSTICA
Y podemos seguir aumentando más capas o variables de agrupación. Ahora elijamos la variable TRABAJO para agrupar aún más nuestros resultados. Para ello será necesario indicar a SPSS que vamos a emplear una variable más en otra capa. Esto se consigue haciendo clic en el botón Siguiente de la ventana de capas.
Elegimos otra variable de agrupación para la Capa 2
El resultado será:
Tabla de contingencia ESTADO CIVIL DEL ENCUESTADO * DISTRITO DE RESIDENCIA DEL ENCUESTADO * SEXO DEL ENCUESTADO * ¿TRABAJA EL ENCUESTADO? Recuento ¿TRABAJA EL ENCUESTAD O?
SEXO DEL ENCUESTADO
SÍ
VARÓN
SOLTERO(A) CASADO(A)
DISTRITO DE RESIDENCIA DEL ENCUESTADO HYO TAMBO CHILC OTROS A 0 1 0 0 0 1
Pág. ¡Exigencia académica para grandes cambios!
Total
1 1
193
ESTADÍSTICA
MUJER
Total
ESTADO CIVIL DEL ENCUESTADO Total ESTADO CIVIL DEL ENCUESTADO Total ESTADO CIVIL DEL ENCUESTADO
UNIÓN LIBRE DIVORCIADO( A)
1
1
0
2
1
0
0
1
2 1
2
SOLTERO(A)
1 0
5 1
CASADO(A)
0
1
1
SOLTERO(A) CASADO(A) UNIÓN LIBRE DIVORCIADO( A)
Total
VARÓN
ESTADO CIVIL DEL ENCUESTADO
SOLTERO(A) CASADO(A) UNIÓN LIBRE DIVORCIADO( A)
Total
NO
MUJER
ESTADO CIVIL DEL ENCUESTADO
SOLTERO(A) CASADO(A) UNIÓN LIBRE VIUDO(A)
Total
Total
ESTADO CIVIL DEL ENCUESTADO
SOLTERO(A) CASADO(A) UNIÓN LIBRE DIVORCIADO( A) VIUDO(A)
Total
VARÓN
ESTADO CIVIL DEL ENCUESTADO
SOLTERO(A) CASADO(A) UNIÓN LIBRE DIVORCIADO( A)
Total
Total
MUJER
ESTADO CIVIL DEL ENCUESTADO
SOLTERO(A) CASADO(A) UNIÓN LIBRE VIUDO(A)
Total
Total
ESTADO CIVIL DEL ENCUESTADO
Total
SOLTERO(A) CASADO(A) UNIÓN LIBRE DIVORCIADO( A) VIUDO(A)
1 1 0 1
1 0 1
1 0 2 0
2 2 2 2
1
0
0
1
3 2 1 0
2 3 1 0
2 0 1 1
1 0 0
0
1
0
0
1
3 1 1 1 1 4 3 2 1
5 2 2 2 0 6 5 3 2
2 1 0 0 0 1 1 1 1
1 0 0 1 0 1 1 0 1
11 4 3 4 1 12 10 6 5
0
1
0
0
1
1 7 2 1 1
0 11 4 1 1
0 3 0 2 1
0 2 1 0 0
1 23 7 4 3
1
1
0
0
2
5 2 1 1 1 5 4 2 2
7 2 2 2 0 6 6 3 3
3 1 1 0 0 2 1 3 1
1 0 0 1 0 1 1 0 1
16 5 4 4 1 14 12 8 7
1
1
0
0
2
1 10
0 13
0 5
0 2
1 30
7 6 3 1
Tema Nº 4: ANÁLISIS ESTADÍSTICO DESCRIPTIVO CÁLCULO DE ESTADÍSTICOS
4.2 Cálculo de estadísticos: Otra parte importante en la descripción de los datos viene a ser el cálculo de medidas que describan aspectos importantes del conjunto total de datos. Dichas medidas son las de tendencia central, dispersión,
Pág. ¡Exigencia académica para grandes cambios!
194
ESTADÍSTICA posición relativa y las de asimetría y curtosis. SPSS cuenta con un conjunto de herramientas estadísticas que permiten calcular dichos estadísticos de manera sencilla. Para ello elegiremos el menú ANALIZAR, opción Estadísticos descriptivos y la sub opción Frecuencias. En dicha ventana seleccionamos la opción Estadísticos. Es necesario indicar que esta no es la única manera de obtener estadísticos en SPSS, ya que muchas ventanas que pertenecen a otros procedimientos también traen habilitada la posibilidad de calcularlos de acuerdo a la prueba que se desea aplicar.
La ventana mostrará:
MEDIDAS DE POSICION RELATIVA
MEDIDAS DE DISPERSIÓN
Estadísticos
MEDIDAS DE TENDENCIA CENTRAL
MEDIDAS DE ASIMETRÍA Y CURTOSIS
El resultado será:
Pág. ¡Exigencia académica para grandes cambios!
195
ESTADÍSTICA
Para emplear cualquiera de los estadísticos del procedimiento Frecuencias sólo basta con activarlo haciendo clic sobre la casilla que se encuentra a la izquierda de cada medida, de manera que aparezca en ella un visto bueno. Podemos seleccionar todos los estadísticos que deseemos, teniendo como única limitante el nivel de medida de cada variable. Una vez obtenidos los estadísticos sólo queda interpretarlos para poder describir mejor nuestro conjunto de datos.
Pág. ¡Exigencia académica para grandes cambios!
196
ESTADÍSTICA
ANEXO 3 MODELO DE ENCUESTAS
Pág. ¡Exigencia académica para grandes cambios!
197
ESTADÍSTICA MODELO ENCUESTA DE APRECIACIÓN SOBRE LOS SERVICIOS DE COMIDA DENTRO Y FUERA DE LAS INSTALACIONES DEL CAMPUS SAN CARLOS Objetivo El presente trabajo de investigación pretende establecer la percepción que tienen los alumnos de UC respecto a los diferentes servicios de comida, dentro y fuera de la universidad y con ello elaborar una propuesta que permita aliviar el problema que enfrentamos a la hora de consumir alimentos. 1. 2. 3. 4.
Edad: ____ Sexo: 2.1 (M) 2.2 (F) Carrera: _________________ Ciclo matriculado: ___________
5. ¿Dónde prefiere almorzar cuando se encuentra en UC? □5.1 Cafetín □5.2 Comida Rápida en los alrededores □5.3 Punto y Coma □5.4 Menú en algún restaurant externo □5.5 Mi propio refrigerio □5.6 Otros:__________________ 6. ¿Qué opinión tiene respecto al espacio disponible para almorzar? □ 6.1 Me parece pequeño □ 6.2 Me parece aceptable □ 6.3 Me parece amplio 7. Sólo contestar si te encuentras fuera de la UC ¿Qué te parecen los precios del presente local en comparación con los precios de la UC? □ 7.1 Me parecen baratos □ 7.2 Me parecen similares □ 7.3 Me parecen caros 8. En una escala del 0 al 5, sabiendo que 0 es el mínimo puntaje y 5 el máximo, como clasificaría la calidad de los alimentos que se producen con respecto a: 8.1 8.2 8.3 8.4 8.5 8.6 8.7
Sabor Frescura Limpieza Cantidad Nutritivo Presentación Variedad
0 0 0 0 0 0 0
1 1 1 1 1 1 1
2 2 2 2 2 2 2
3 3 3 3 3 3 3
4 4 4 4 4 4 4
5 5 5 5 5 5 5
9. Tiempo de espera para ser atendido (en cola o mesas) □ 9.1 Menos de 5 minutos □ 9.2 De 5 a 10 minutos □ 9.3 De 10 a 15 minutos □ 9.4 Más de 15 minutos 10. Tiempo de espera para recibir la orden □10.1 Menos de 10 minutos □10.2 De 10 a 20 minutos □10.3 De 20 a 30 minutos □10.4 Más de 30 minutos
Pág. ¡Exigencia académica para grandes cambios!
198
ESTADÍSTICA 11. Opinión □ 11.1 □ 11.2 □ 11.3
respecto al tiempo de espera para recibir la orden Bajo Regular Alto
12.En una escala del 0 al 5, sabiendo que 0 es el mínimo puntaje y 5 el máximo, ¿cómo calificaría el grado de satisfacción con respecto a la infraestructura y servicio? 12.1 12.2 12.3 12.4
Diseño Ventilación Comodidad Atención
0 0 0 0
1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
5 5 5 5
13.Tiempo disponible para almorzar 13.1 Menos de 30 minutos 13.2 Entre 30 y 60 minutos 13.3 Más de 1 hora 14.Precios dispuesto a pagar 14.1 Menos de S/.5 14.2 Entre S/.5 y S/.10 14.3 Más de S/.10 15.¿Con qué frecuencia almuerza en dicho lugar? 15.1 1 vez a la semana 15.2 2 veces a la semana 15.3 3 veces a la semana 15.4 4 veces a la semana 15.5 5 veces a la semana 15.6 6 veces a la semana 15.7 Otros:_______________
GRACIAS
Pág. ¡Exigencia académica para grandes cambios!
199
ESTADÍSTICA MODELO ENCUESTA NACIONAL ENAHO 2013-4TO TRIMESTRE
Pág. ¡Exigencia académica para grandes cambios!
200
ESTADÍSTICA
Pág. ¡Exigencia académica para grandes cambios!
201
ESTADÍSTICA
Pág. ¡Exigencia académica para grandes cambios!
202
ESTADÍSTICA
ANEXO 4 TABLAS ESTADÍSTICAS (EXTRAÍDAS DEL LIBRO ESTADÍSTICA DE MARIO TRIOLA 10°ED.)
Pág. ¡Exigencia académica para grandes cambios!
203
ESTADÍSTICA
Pág. ¡Exigencia académica para grandes cambios!
204
ESTADÍSTICA
Pág. ¡Exigencia académica para grandes cambios!
205
ESTADÍSTICA
Pág. ¡Exigencia académica para grandes cambios!
206
ESTADÍSTICA
Pág. ¡Exigencia académica para grandes cambios!
207
ESTADÍSTICA
REFERENCIAS BIBLIOGRÁFICAS
1. Triola Mario. ESTADÍSTICA. Pearson Educación. México 2012. 2. Levin-Rubin-BalderasDel Valle-Gómez. ADMINISTRACIÓN. PEARSON EDUCACIÓN. 2012
ESTADÍSTICA
PARA
LA
3. Jorge Inafuko- Jorge Rubio. ESTADÍSTICA APLICADA. Centro de Investigación Universidad del Pacífico. 2014 4 Martínez Bencardino. ESTADÍSTICA Y MUESTREO. ECOE Ediciones. 2012 5. Mendenhall- J. Beaver- M. Beaver. INTRODUCCÓN A LA PROBABILIDAD Y ESTADÍSTICA. Cengage Learning. 2010 6. Berenson Mark y Levine David. ESTADÍSTICA BÁSICA EN ADMINISTRACIÓN, CONCEPTOS Y APLICACIONES. Prentice Hall, México 2010 7. Universidad Peruana de Ciencias Aplicadas. “MATERIAL DE ENSEÑANZA PREGADO 2014”. Lima, 2 014.
8. ROJAS FLORES, Agustín. “ESTADÍSTICA DESCRIPTIVA E INFERENCIAL CON APLICACIONES EN EXCEL”. Universidad Nacional “Hermilio Valdizan”. Escuela de Post Grado. Lima, 2 009. 9. Anderson Sweeney Williams. ESTADÍSTICA PARA NEGOCIOS Y ECONOMÍA 11°Ed. Cengage Learning 2012
Pág. ¡Exigencia académica para grandes cambios!
208