PROBABILIDAD y ESTADÍSTICA
PARA BACHILLERATO
WILLIAM MENDENHALL | ROBERT J. BEAVER | BARBARA M. BEAVER
PROBABILIDAD y ESTADÍSTICA
PARA BACHILLERATO William Mendenhall, III University of Florida, Emérito
Robert J. Beaver University of California, Riverside, Emérito
Barbara M. Beaver University of California, Riverside, Emérito
Traductor
Revisión técnica para UNITEC
Jorge Alberto Velázquez Arellano
Edgar Vajov Benítez Aguilar Director Académico de Matemáticas FACS e ING UNITEC campus Sur
Revisión técnica M. I. Ángel Leonardo Bañuelos Saucedo Coordinador General del Centro de Docencia “Ing. Gilberto Borja Navarrete” Profesor de Carrera Titular Facultad de Ingeniería Universidad Nacional Autónoma de México (UNAM)
Adaptación Raquel Arcos Burgos Especialista en Estadística y Demografía
Australia • Brasil • Estados Unidos • México • Reino Unido • Singapur
Probabilidad y estadística para bachillerato William Mendenhall, III; Robert J. Beaver y Barbara M. Beaver Director Higher Education Latinoamérica: Renzo Casapía Valencia Gerente editorial Latinoamérica: Jesús Mares Chacón Editora: Cinthia Chávez Ceballos Coordinador de manufactura: Rafael Pérez González Diseño de portada: Karla Paola Benítez Garcíao Imágenes de portada: © Phawat/adobe.stock.com © benjaminec/adobe.stock.com Composición tipográfica: Arturo Rocha Hernández
© D.R. 2019 por Cengage Learning Editores, S.A. de C.V., una compañía de Cengage Learning, Inc. Carretera México-Toluca núm. 5420, oficina 2301. Col. El Yaqui. Del. Cuajimalpa. C.P. 05320. Ciudad de México. Cengage Learning® es una marca registrada usada bajo permiso. DERECHOS RESERVADOS. Ninguna parte de este trabajo, amparado por la Ley Federal del Derecho de Autor, podrá ser reproducida, transmitida, almacenada o utilizada en cualquier forma o por cualquier medio, ya sea gráfico, electrónico o mecánico, incluyendo, pero sin limitarse a lo siguiente: fotocopiado, reproducción, escaneo, digitalización, grabación en audio, distribución en internet, distribución en redes de información o almacenamiento y recopilación en sistemas de información a excepción de lo permitido en el Capítulo III, Artículo 27 de la Ley Federal del Derecho de Autor, sin el consentimiento por escrito de la Editorial. Esta es una adaptación del libro Introducción a la probabilidad y estadística de William Mendenhall III, Robert J. Beaver y Barbara M. Beaver publicado por Cengage Learning con ISBN 978-607-519-876-7, traducido de la obra Introduction to Probability and Statistics, fourteenth edition publicado en inglés por Brooks/Cole, una compañía de Cengage Learning © 2013, 2009 ISBN: 978-1-133-10375-2 Datos para catalogación bibliográfica: Mendenhall, Willian, Robert Beaver y Barbara Beaver Probabilidad y estadística para bachillerato ISBN: 978-607-526-732-6 Visite nuestro sitio en: http://latinoamerica.cengage.com
Impreso en México 1 2 3 4 5 6 22 21 20 19
Prefacio Cada vez que toma un periódico o una revista, cuando ve un programa por televisión o navega en internet, aparece la estadística. Cada vez que llena un cuestionario, se registra en un sitio web o desliza su tarjeta de puntos por el lector electrónico de algún supermercado, sus datos personales pasan a una base de datos que contiene su información estadística personal. No puede evitar el hecho de que en esta era de la información, la recolección y el análisis de datos son una parte integral de nuestras actividades cotidianas. Para ser un cliente y un ciudadano educado necesita entender cómo la estadística se aplica día con día y, si es el caso, cómo se le da un mal uso en nuestras vidas.
EL SECRETO DE ÉXITO DE ESTE LIBRO Desde su primera edición, el título original, del que se tomó gran parte del contenido para crear esta adaptación, ha ayudado a varias generaciones de alumnos a entender lo que es la estadística y cómo sirve de herramienta en sus áreas particulares de aplicación. El secreto del éxito de esta obra es su capacidad para combinar lo viejo con lo nuevo. En cada revisión se han conservado los puntos fuertes de ediciones previas y siempre buscamos formas nuevas para motivar, alentar e interesar a los alumnos en el uso de nuevas herramientas tecnológicas.
CARACTERÍSTICAS DISTINTIVAS Esta edición presenta la descripción tradicional para la cobertura de los temas de la estadística. Conserva la simplificación y claridad del lenguaje con un estilo más legible y “amigable”, sin sacrificar la integridad estadística de la presentación. Se ha hecho un gran esfuerzo para enseñar cómo aplicar los procedimientos estadísticos, al igual que para explicar: • •
cómo describir de modo significativo conjuntos reales de datos; que significan los resultados de las pruebas estadísticas en términos de sus aplicaciones prácticas; • cómo evaluar la validez de los supuestos detrás de las pruebas estadísticas; y • qué hacer cuando se han violado los supuestos estadísticos.
iv
PREFACIO
Ejercicios La variedad y el número de aplicaciones reales en los conjuntos de ejercicios es la mayor fortaleza de esta edición. Se han incluido los conjuntos de ejercicios para darle nuevas e interesantes situaciones del mundo real y conjuntos de datos reales, muchos de ellos extraídos de periódicos y revistas científicas recientes. Los ejercicios se gradúan según su nivel de dificultad; algunos, relacionados con técnicas básicas, pueden ser resueltos por casi todos los alumnos, mientras que otros, moldeados para aplicaciones prácticas e interpretación de resultados, harán que los alumnos usen un razonamiento y entendimiento estadísticos más complejos.
Organización y cobertura Esta edición se diseñó para cubrir los aprendizajes esperados de Probabilidad y estadística en bachillerato. Presenta los principales conceptos con un enfoque en la solución de problemas y en el análisis de casos para favorecer un aprendizaje amplio y duradero en el alumno. De manera integral, esta obra destaca la importancia de interpretar y dar solución a los problemas de aplicación permitiendo generar así un pensamiento lógico y práctico para la interpretación de resultados con base en la probabilidad. Los temas desarrollados en la obra son: • Distribución de frecuencias • Medidas de tendencia central • Medidas de variabilidad • Análisis combinatorio • Introducción a la probabilidad • Condicionalidad e independencia • Variables aleatorias y distribuciones de probabilidad, • Distribución binomial • Distribución normal • Datos bivariados
Características especiales de la obra Los capítulos están compuestos por: • Evaluación diagnóstica • Sección de consejos • Momentos de práctica • Actividades sumativas • Rúbricas para la evaluación de los proyectos estadísticos. Todos estos apoyos ofrecen la oportunidad de aplicar las técnicas, anteriormente mencionadas, de manera que el alumno logre comprender la utilidad de la probabilidad y la estadística dentro de su contexto.
PREFACIO
v
MATERIAL DE APOYO PARA EL ESTUDIO Los numerosos y variados ejercicios del texto suministran la mejor herramienta de aprendizaje para estudiantes que inician un primer curso de estadística. Las respuestas a todos los ejercicios con número non aparecen en el Manual de Soluciones para el Estudiante, el cual está disponible como complemento para los estudiantes. Cada ejercicio de aplicaciones tiene un título, lo que facilita a alumnos y profesores identificar de inmediato tanto el contexto del problema como su área de aplicaciones.
5.37 Considere una variable aleatoria de Poisson con m 3. Use la tabla 2 para encontrar las siguientes probabilidades: b. P(x 3) a. P(x 3) d. P(3 x 5) c. P(x 3) 5.38 Considere una variable aleatoria de Poisson con m 0.8. Use la tabla 2 para encontrar las siguientes probabilidades: a. P(x = 0) b. P(x 2) d. P(2 x 4) c. P(x 2) 5.39 Sea x una variable aleatoria de Poisson con media m 2. Calcule estas probabilidades: b. P(x 1) a. P(x 0) c. P(x 1) d. P(x 5)
APLICACIONES 5.43 Seguridad en un aeropuerto El incremento
del número de vuelos regionales cortos en aeropuertos importantes ha aumentado la preocupación por la seguridad en el aire. Un aeropuerto de la región este ha registrado un promedio mensual de cinco accidentes a punto de ocurrir en aterrizajes y despegues en los últimos 5 años. a. Encuentre la probabilidad de que durante un mes determinado no haya accidentes a punto de ocurrir en aterrizajes y despegues en el aeropuerto. b. Encuentre la probabilidad de que durante un mes determinado haya cinco accidentes a punto de ocurrir. c. Encuentre la probabilidad de que haya al menos cinco
RECONOCIMIENTOS Los autores agradecen a Molly Taylor y al personal editorial de Cengage Learning por su paciencia, asistencia y cooperación en la preparación de esta edición. Un agradecimiento especial a Gary McClelland por las applets Java usadas en el texto. También se agradece a los revisores de la decimocuarta edición de Introducción a la Probabilidad y Estadística Ronald C. Degges, Bob C. Denton, Dra. Dorothy M. French, Jungwon Mun, Kazuhiko Shinki, Florence P. Shu y a los revisores de la décimo tercera edición Bob Denton, Timothy Husband, Rob LaBorde, Craig McBride, Marc Sylvester, Kanapathi Thiru y Vitaly Voloshin. Deseamos agradecer a los autores y organizaciones por permitirnos reimprimir material selecto; se hacen reconocimientos siempre que tal material aparece en el texto. Robert J. Beaver Barbara M. Beaver
Contenido breve 1
DISTRIBUCIÓN DE FRECUENCIA 1
2
MEDIDAS DE TENDENCIA CENTRAL 35
3
MEDIDAS DE VARIABILIDAD 55
4
ANÁLISIS COMBINATORIO 81
5
INTRODUCCIÓN A LA PROBABILIDAD 101
6
CONDICIONALIDAD E INDEPENDENCIA 123
7
VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD 145
8
DISTRIBUCIÓN BINOMIAL 159
9
DISTRIBUCIÓN NORMAL 181
10
DESCRIPCIÓN DE DATOS BIVARIADOS 201
Contenido 1
DISTRIBUCIÓN DE FRECUENCIA
1
Evaluación diagnóstica 2 1.1 Introducción a la estadística 3 1.2 Población y muestra 3 Representación gráfica y tabular para el análisis de casos 4
1.3 Tipos de variables 10 1.4 Distribución de frecuencia y algunas gráficas para datos categóricos 11 1.5 Frecuencias relativas acumuladas 15 1.6 Gráficas para datos cuantitativos 16 Gráficas de pastel y gráficas de barras 16 Gráficas de líneas 18 Gráficas de puntos 18 Gráficas de tallo y hoja 19 Interpretación de gráficas con ojo crítico 20
1.7 Histogramas de frecuencia relativa 22 1.8 Construcción de frecuencias (Regla de Sturges) 26 1.9 Parámetros y mediciones estadísticas 28 Actividad sumativa 31 Rúbrica para evaluar proyecto estadístico 33 2
MEDIDAS DE TENDENCIA CENTRAL
35
Evaluación diagnóstica 36 2.1 Media 37 Media aritmética 37 Media geométrica 38 Media ponderada 41 Media armónica 43
2.2 Mediana 46 2.3 Moda 47 2.4 Comparaciones entre parámetros 48 Actividad sumativa 51 Rúbrica para evaluar proyecto estadístico 53
CONTENIDO
3
MEDIDAS DE VARIABILIDAD
55
Evaluación diagnóstica 56 3.1 Medidas de variabilidad por intervalos 57 Rango semi-intercuartil 57 Rango percentil 10-90 59
3.2 Medición de la variabilidad por desviaciones 60 Desviación media 60 Varianza 61 Desviación estándar 63
3.3. Sobre la significación práctica de la desviación estándar 65 3.4 Una medición del cálculo de s 68 3.5 Mediciones relativas de la variabilidad 69 Estandarización de variables 71
3.6 Relaciones entre medidas de dispersión 74 Actividad sumativa 77 Rúbrica para evaluar proyecto estadístico 79 4
ANÁLISIS COMBINATORIO 81 Evaluación diagnóstica 82 Introducción 83 4.1 Principios fundamentales 83 Principio aditivo de conteo 83 Principio multiplicativo de conteo 83 Tareas con una etapa 84 Tareas con dos etapas 84 Tareas con más de dos etapas 86
4.2 Permutaciones 89 Permutaciones lineales con objetos diferentes 89 Permutaciones lineales con objetos no distinguibles 91
4.3 Combinaciones 93 Una regla de conteo para combinaciones 94 Guía para saber cuándo usar permutaciones y cuándo usar combinaciones 94 Actividad sumativa 97 Rúbrica para evaluar proyecto estadístico 98
ix
x
CONTENIDO
5
INTRODUCCIÓN A LA PROBABILIDAD 101 Evaluación diagnóstica 102 5.1 El papel de la probabilidad en la estadística 103 5.2 Eventos y espacio muestral 103 5.3 Cálculo de probabilidades de eventos simples
106
5.4 Axiomas de probabilidad 110 5.5 Interpretación de la probabilidad 111 5.6 Relaciones de evento y reglas de probabilidad 113 Cálculo de probabilidades para uniones y complementos 114 Actividad sumativa 119 Rúbrica para evaluar proyecto estadístico 121 6
CONDICIONALIDAD E INDEPENDENCIA 123 Evaluación diagnóstica 124 6.1 Independencia, probabilidad condicional y la regla de la multiplicación 125 6.2 Particiones 132 6.2 Regla de Bayes (opcional) 137 Actividad sumativa 141 Rúbrica para evaluar proyecto estadístico 143
7
VARIABLES ALEATORIAS Y DISTRIBUCIONES DE PROBABILIDAD 145 Evaluación diagnóstica 146 7.1 Variables aleatorias discretas y sus distribuciones de probabilidad 147 Variables aleatorias 147 Distribuciones de probabilidad 147 La media y desviación estándar para una variable aleatoria discreta 149 Actividad sumativa 154 Rúbrica para evaluar proyecto estadístico 156
CONTENIDO
8
DISTRIBUCIÓN BINOMIAL
159
Evaluación diagnóstica 160 8.1 La distribución binomial de probabilidad 161 8.2 Modelo de distribución binomial negativa 172 8.3 Tabla de distribución binomial 173 Actividad sumativa 177 Rúbrica para evaluar proyecto estadístico 179 9
DISTRIBUCIÓN NORMAL 181 Evaluación diagnóstica 182 9.1 Distribuciones de probabilidad para variables aleatorias continuas 183 9.2 La distribución normal de probabilidad 185 9.3 Áreas tabuladas de la distribución normal de probabilidad 186 La variable aleatoria normal estándar 187 Cálculo de probabilidades para una variable aleatoria normal general 189
9.4 Tabla de distribución normal 192 Actividad sumativa 197 Rúbrica para evaluar proyecto estadístico 199 10
DESCRIPCIÓN DE DATOS BIVARIADOS
201
Evaluación diagnóstica 202 10.1 Datos bivariados 203 10.2 Gráficas para variables cualitativas 203 10.3 Gráficas de dispersión para dos variables cuantitativas 207 10.4 Medidas numéricas para datos cuantitativos bivariados 209 Actividad sumativa 216 Rúbrica para evaluar proyecto estadístico 218
xi
1
Distribución de frecuencia
© Pressmaster/Shutterstock
Propósito
Competencia a desarrollar
Que el alumno emplee la estadística para organizar, resumir y transmitir información, así como para estimar comportamientos de su entorno que le permitan una mejor toma de decisiones, y así favorecer su pensamiento crítico.
Explica o interpreta los resultados obtenidos mediante procedimientos matemáticos y los contrasta con modelos establecidos o situaciones reales.
Aprendizajes esperados
Objetos de aprendizaje
• Identifica claramente la diferencia ente población y muestra. • Distingue las variables que se usan en la estadística: continua y discreta. • Identifica y clasifica las tablas de distribución de frecuencias.
Introducción a la estadística Población y muestra Representación gráfica y tabular para el análisis de casos Tipos de variables Distribución de frecuencia y algunas gráficas para datos categóricos Frecuencias relativas acumuladas Gráficas para datos cuantitativos Gráficas de pastel y gráficas de barras Gráficas de líneas Gráficas de puntos Gráficas de tallo y hoja Interpretación de gráficas con ojo crítico Histogramas de frecuencia relativa Construcción de frecuencias (Regla de Sturges) Parámetros y mediciones estadísticas
1
2
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
Evaluación diagnóstica 1. ¿Qué es la estadística?
2. ¿Cuál es la diferencia entre una muestra y una población?
3. ¿Cuál es la diferencia entre la estadística descriptiva y la inferencial?
4. ¿Qué tipos de gráficas se utilizan en la estadística descriptiva?
5. ¿Cuál es la diferencia entre una variable cuantitativa y una cualitativa?
6. ¿Qué es una frecuencia?
POBLACIÓN Y MUESTRA
1.1 MI CONSEJO
La estadística es una rama de las matemáticas que tiene aplicaciones en casi todas las facetas de nuestra vida. Es un lenguaje nuevo y poco conocido para la mayoría de las personas pero, al igual que cualquier idioma nuevo, la estadística puede parecer agobiante a primera vista. Pero una vez aprendido y entendido el lenguaje de la estadística veremos que es una poderosa herramienta para el análisis de datos en numerosos y distintos campos de aplicación.
1.2
3
INTRODUCCIÓN A LA ESTADÍSTICA Cuando usted tiene ante sí un conjunto de mediciones, ya sea una muestra o una población, necesita encontrar una forma de organizarlo y resumirlo. La rama de la estadística que enseña técnicas para describir los conjuntos de mediciones se denomina estadística descriptiva. Usted ha visto estadísticas descriptivas en numerosas formas: gráficas de barras, gráficas de pastel y gráficas de líneas presentadas por un candidato político; tablas numéricas en el periódico, o el promedio de cantidad de lluvia informado por el pronosticador del clima en la televisión local. Las gráficas y resúmenes numéricos generados en computadoras son comunes en nuestra comunicación de todos los días. Definición La estadística descriptiva está formada por procedimientos empleados para resumir y describir las características importantes de un conjunto de mediciones. Por otro lado, si el conjunto de mediciones es toda la población, solo se necesita obtener conclusiones basadas en la estadística descriptiva. No obstante, podría ser demasiado costoso o llevaría demasiado tiempo enumerar toda la población. Quizás enumerar la población la destruiría. Por estas y otras razones, usted puede tener solo una muestra de la población y quizás al verla desee responder preguntas acerca de la población en su conjunto. La rama de la estadística que se ocupa de este problema se llama estadística inferencial. Y aunque este no es el tema del presente capítulo, vale adelantar que la estadística inferencial está formada por procedimientos empleados para hacer inferencias acerca de características poblacionales a partir de información contenida en una muestra de la población. Dicho de otra manera, el objetivo de la estadística inferencial es hacer inferencias (es decir, obtener conclusiones, hacer predicciones, tomar decisiones) acerca de las características de una población a partir de información contenida en una muestra.
POBLACIÓN Y MUESTRA En el lenguaje de la estadística, uno de los conceptos básicos es el muestreo. En casi todos los problemas de estadística, un número específico de mediciones o datos (es decir, una muestra) se toma de un cuerpo de mediciones más grande llamado población.
Muestra
Población
Pero, ¿cuál es el interés principal, la muestra o la población? En la mayoría de los casos estamos interesados principalmente en la población, pero enumerarla puede ser difícil o imposible. Imagine tratar de registrar la preferencia presidencial de ¡todo votante registrado en Estados Unidos! Seguramente, la dificultad de esta pesquisa podría ser resuelta si tratáramos de describir o pronosticar el comportamiento de la población con base solo en la información obtenida de una muestra representativa de esa población. Las palabras muestra y población tienen dos significados para la mayoría de las personas. Por ejemplo, usted lee en los periódicos que una encuesta Gallup realizada en Estados Unidos se basó en una muestra de 1 823 personas. Presumiblemente, a cada persona entrevistada se le hace una pregunta particular y la respuesta de esa persona representa una sola medida de la muestra. ¿La muestra es el conjunto de las 1 823 personas, o es las 1 823 respuestas que dan? Cuando usamos el lenguaje de la estadística, distinguimos entre el conjunto de objetos en el que se toman las mediciones y las mediciones mismas. Para los experimentadores, los objetos en los que se toman las mediciones se denominan unidades experimentales. El estadístico que estudia las muestras las llama elementos de la muestra.
4
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
Representación gráfica y tabular para el análisis de casos Los datos pueden ser organizados, visualizados y resumidos por medio del uso de diversos métodos. Los más básicos son tablas, gráficas y métodos numéricos. La representación apropiada para un conjunto de datos depende de la naturaleza de estos; es decir, si son numéricos o no numéricos. En estadística, una variable se define como una característica que puede variar para los distintos individuos u objetos que forman parte de una población. Por ejemplo: el sexo, la edad, la nacionalidad y la religión son variables que nos permiten describir personas en una población. Las distintas técnicas gráficas facilitan la comprensión de los datos y ayudan a seleccionar los métodos estadísticos apropiados para su análisis. Algunas de las herramientas gráficas más comúnmente utilizadas en estadística son:
Gráfica de barras Esta gráfica se utiliza para representar frecuencias o conteos de variables cualitativas o numéricas discretas con una reducida variabilidad. Las frecuencias con las que ocurren las distintas categorías se representan mediante barras rectangulares. La altura de cada barra es proporcional a la frecuencia absoluta o relativa correspondiente a la categoría representada. Todas las barras se dibujan del mismo ancho, con un espacio que las separa e indica la inexistencia de datos en los intervalos de los espacios. Las barras pueden presentarse de forma vertical u horizontal. Estas gráficas son útiles para comparar frecuencias entre diferentes categorías y facilitan la identificación de aquellas con conteos bajos o altos. EJEMPLO
1.1
Una encuesta realizada en Inglaterra tuvo como objetivo analizar los daños causados por fumar. Se preguntó sobre hábitos de fumar y sobre algunas características demográficas de los entrevistados. Entre estas, se encuentran género, edad, estado civil, máximo grado de estudios alcanzado, nacionalidad, etnicidad, ingreso anual, región de residencia, si eran o no fumadores y número de cigarros diarios fumados entre semana o en fines de semana. Se encuestó a 1 691 personas, de las cuales 965 eran mujeres y 726, hombres. La gráfica de barras a continuación muestra el número de encuestados por estado civil. Para lograr mayor claridad en la representación, es recomendable ordenar las categorías en el eje x en orden ascendente o descendente de frecuencias. En este ejemplo, se ordenaron las categorías en orden descendente.
FIGURA 1.1
800
Frecuencia
600
400
200
0
Casado
Soltero
Viudo
Divorciado Separado D
Gráfica de barras segmentadas Las gráficas de barras segmentadas se utilizan para mostrar cómo diferentes subgrupos o subcategorías contribuyen al total del grupo o categoría. En una gráfica de barras segmentadas, cada barra representa una categoría que consiste en más de una subcategoría. Los segmentos de las barras representan las diferentes subcategorías. La altura de cada segmento es proporcional a la frecuencia absoluta o relativa de la subcategoría. EJEMPLO
1.2
La gráfica de barras segmentadas de la Figura 1.2 parte de la información en la Figura 1.1, pero divide cada barra en dos subgrupos: mujeres y hombres.
POBLACIÓN Y MUESTRA
FIGURA 1.2
5
800
Frecuencia
600 Género Mujer
400
Hombre
200
0
Casado
Soltero
Viudo
Divorciado Separado
Observamos que mientras que en las categorías “casado” y “soltero” el número de mujeres y hombres es aproximadamente igual, en las categorías “viudo”, “divorciado” y “separado” el número de mujeres es mayor que el de hombres.
Gráfica de pastel o circular Generalmente, los datos que se muestran mediante gráficas de barras también pueden presentarse mediante gráficas de pastel o circular, siempre y cuando el número de categorías sea reducido. Se recomienda no usar más de cinco categorías en este tipo de gráfico. Estas gráficas indican cómo un total se divide en partes. Cada parte del círculo recibe el nombre de sector. El área de cada sector es proporcional al porcentaje del total representado por la categoría del sector. En consecuencia, la medida del ángulo central de cada sector es proporcional al porcentaje de 360 grados que el sector representa.
Diagrama de puntos En estos diagramas se puede apreciar el número de veces en el que se presenta cada valor en un conjunto de datos. En el eje horizontal se coloca una escala con los distintos valores, y sobre cada uno se marcan tantos puntos como veces se repite el valor. Estos diagramas son útiles para detectar ciertas características del conjunto de datos, tales como: • • •
Observaciones atípicas: son valores que se observan particularmente pequeños o grandes cuando se les compara con los valores del resto del conjunto. Huecos: espacios grandes entre conjuntos de puntos. Perfil de la distribución: valores que son más frecuentes.
Los diagramas de punto son muy fáciles de construir e interpretar si el número de observaciones es menor a 100 y no se tienen demasiados valores repetidos o muy juntos, pues de lo contrario se perderá claridad. EJEMPLO
1.3
A continuación, en la Tabla 1.1, se presentan las estaturas en cm de 100 hombres estudiantes universitarios. Es difícil comprender la distribución de frecuencias tan solo con observar la tabla. Para resolver este problema, procederemos a elaborar un diagrama de puntos con estos datos.
TABLA 1.1
154.94
167.64
170.18
172.72
175.26
177.8
180.34
182.88
185.42
187.96
160.02
167.64
170.18
175.26
175.26
177.8
180.34
182.88
185.42
187.96
160.02
167.64
172.72
175.26
175.26
177.8
180.34
182.88
185.42
190.5
162.56
170.18
172.72
175.26
177.8
180.34
180.34
182.88
185.42
190.5
162.56
170.18
172.72
175.26
177.8
180.34
180.34
182.88
185.42
193.04
162.56
170.18
172.72
175.26
177.8
180.34
180.34
182.88
187.96
193.04
165.1
170.18
172.72
175.26
177.8
180.34
180.34
182.88
187.96
193.04
165.1
170.18
172.72
175.26
177.8
180.34
180.34
182.88
187.96
193.04
167.64
170.18
172.72
175.26
177.8
180.34
182.88
182.88
187.96
195.58
167.64
170.18
172.72
175.26
177.8
180.34
182.88
182.88
187.96
198.12
6
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
En la Figura 1.3 se muestra el diagrama de puntos. Percibimos que las estaturas del grupo se concentran en el intervalo (170, 185) cm. Hay algunas observaciones atípicas en ambos extremos de la distribución y no hay huecos grandes. La forma de esta distribución se asemeja a un montículo, con muchos valores en el centro y pocos en los extremos. Veremos que las gráficas de muchas variables que se generan en la naturaleza tienen esta misma forma.
FIGURA 1.3
160
170
180 Estatura en cm
190
200
Histogramas La representación gráfica de la distribución de frecuencias de datos continuos se realiza mediante histogramas. A diferencia de las gráficas de barras (en las que en uno de los ejes se muestran las categorías de una variable cualitativa), en los histogramas se muestra la escala numérica que representa los valores de una variable continua; además, no hay espacio entre las barras. Definición Un histograma es una forma especial de gráfica de barras en la que los intervalos de clase están representados por el ancho de las barras y las áreas de los rectángulos son proporcionales a las frecuencias de las mediciones. Para construir un histograma, los datos se agrupan en intervalos, que también reciben el nombre de clases. Para ello, se divide el intervalo completo de valores en intervalos más pequeños de igual longitud. Posteriormente, se cuentan los valores que pertenecen a cada intervalo. La altura de las barras puede ser la frecuencia absoluta o la relativa. El perfil del histograma será el mismo; no obstante, es más esclarecedor representar las frecuencias relativas porque así se tiene una idea del porcentaje de observaciones que ocurrieron por intervalo. El perfil del histograma es útil para observar la forma general de la distribución de frecuencias de un conjunto de datos. Permite identificar el centro, el grado de dispersión de la distribución y los intervalos con bajas o altas frecuencias.
EJEMPLO
1.4
Desde 1973, el primer domingo de abril se lleva a cabo en la ciudad de Washington, D.C., Estados Unidos, la carrera de 10 millas (16 km) La flor de los cerezos. La carrera coincide con el florecimiento de los cerezos donados a la ciudad en 1912 por el alcalde de Tokio, de ahí su nombre. En 2012 participaron 16 924 corredores, para quienes se registró el tiempo en terminar la carrera. Debido al gran número de posibles valores, la gráfica indicada para representar la distribución de esta variable es un histograma. Los pasos para construir el histograma se enlistan a continuación: 1. Identificar los valores mínimo y máximo observados en el conjunto de datos para calcular su amplitud. Tiempo mínimo en la carrera = 45.25 min. Tiempo máximo en la carrera = 170.97 min. Amplitud = máximo – mínimo = 170.97 – 45.25 = 125.72
POBLACIÓN Y MUESTRA
7
2. Decidir el número de intervalos de clase, así como el ancho de cada uno de ellos. Es recomendable emplear entre cinco y 20 clases, todas ellas del mismo ancho. En el ejemplo de los corredores, podría interesarnos observar intervalos de 10 minutos, por lo que estableceremos este ancho de clase. Con el fin de obtener un número exacto de intervalos, ajustamos la amplitud a 130, lo cual es válido; por consiguiente, el número de intervalos será: 130 = 13 intervalos 10 3. Elegir el valor inicial que limitará al primer intervalo de clase y a partir del cual se obtendrán todos los puntos que limitarán a cada uno de los siguientes intervalos. (Estos puntos reciben el nombre de límites de clase.) El primer límite inferior deberá ser un número un poco menor que el valor mínimo observado en el conjunto de datos. Para nuestro ejemplo, el valor mínimo es 45.25, por lo que tomamos 45 como valor inicial. Para obtener el siguiente límite inferior sumamos el ancho del intervalo al límite inferior anterior: 45 + 10, y así sucesivamente. 4. Una vez elegido el límite inferior, los intervalos de clase quedan como se muestran en la Tabla 1.2. 5. A continuación, se efectúa un conteo del número de observaciones cuyos valores pertenecen a cada intervalo de clase; es decir, se calculan las frecuencias absolutas, y a partir de estas, se podrán obtener las frecuencias relativas.
TABLA 1.2
Clase
Intervalos de clase
Clase
Intervalos de clase
1
(45,55]
8
(115,125]
2
(55,65]
9
(125,135]
3
(65,75]
10
(135,145]
4
(75,85]
11
(145,155]
5
(85,95]
12
(155,165]
6
(95,105]
13
(165,175]
7
(105,115]
El histograma resultante para la variable tiempo en minutos en terminar la carrera se muestra en la Figura 1.4. Notemos que se han representado las frecuencias absolutas.
FIGURA 1.4
Frecuencia
4000 3000 2000 1000 0 40
50
60
70
80
90
100
110 120 Minutos
130
140
150
160
170
180
En la Figura 1.5 se presenta el mismo histograma de la Figura 1.4, pero este representa, en el eje y, las frecuencias relativas.
8
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
FIGURA 1.5
Frecuencia relativa
0.25
0.20 0.15 0.10 0.5 0 40
50
60
70
80
90
100
110 120 Minutos
130
140
150
160
170
180
Polígonos de frecuencias Para dibujar el polígono de frecuencias, los puntos medios de la parte superior de las barras del histograma se conectan con segmentos de líneas rectas y se cierran los extremos con el eje horizontal, lo que ayuda a visualizar el perfil de la distribución de frecuencias. En la Figura 1.6 se replica el histograma de la Figura 1.4 con el polígono de frecuencias correspondiente, superpuesto en color negro. FIGURA 1.6
Frecuencia
4000 3000 2000 1000 0 40
50
60
70
80
90
100
110 120 Minutos
130
140
150
160
170
180
Los polígonos de frecuencias resultan especialmente útiles cuando una variable se compara entre grupos en el mismo diagrama. Para nuestro ejemplo, podríamos querer comparar los tiempos de carrera para los grupos de mujeres y hombres. Los polígonos de frecuencias para ambos géneros se visualizan en la Figura 1.7. Observamos que la posición del polígono para las mujeres se ubica a la derecha del polígono para los hombres a lo largo de toda la escala del eje x. Esto se debe a que, entre otros factores, las mujeres corren, en promedio, a menores velocidades que los hombres, lo que incrementa sus tiempos totales para terminar el recorrido.
FIGURA 1.7
2000 Frecuencia
Género Mujer Hombre 1000
0 40
50
60
70
80
90
100
110 120 Minutos
130
140
150
160
170
180
9
POBLACIÓN Y MUESTRA
Ojiva o gráfico de frecuencias acumuladas La ojiva es la curva que resulta de graficar las frecuencias relativas acumuladas contra las fronteras superiores de cada intervalo de clase. En el eje x se marcan los límites superiores de cada intervalo de clase y en el eje y, la frecuencia acumulada (absoluta o relativa) de la clase. Este tipo de gráfico es útil para calcular el número o porcentaje de observaciones que corresponden a un intervalo determinado de la variable. El punto de inicio equivale a una frecuencia de 0, y el punto final equivale a 100% de los datos. Gráficamente, es muy fácil visualizar un percentil por medio del uso de la ojiva, solo hay que trazar una línea horizontal desde el eje y a la altura del porcentaje p hasta cortar con la ojiva; a continuación, trazar una línea vertical en el punto de corte para encontrar el percentil de interés en el eje x. La ojiva correspondiente a nuestro ejemplo de la carrera se muestra en la Figura 1.8. Se ha marcado el valor del percentil 90, que es 115 minutos; es decir, 90 % de los corredores terminó la carrera en 115 minutos o menos tiempo.
FIGURA 1.8
1.0 0.9
Proporción acumulada
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 50
55
65
75
85
95
105
115 125 Minutos
135
145
155
165
175
Diagrama de tallo y hojas El diagrama de puntos de la Figura 1.3, si bien nos da idea clara de la distribución de frecuencias de las estaturas del grupo, no nos permite visualizar su valor exacto. Una alternativa es construir un diagrama de tallo y hojas. Para ello, utilizaremos nuevamente el ejemplo de las estaturas de los hombres universitarios. En la Tabla 1.1 se enlistan nuevamente las 100 observaciones. Los valores se han truncado a una cifra decimal. Para construir el diagrama de tallo y hojas, en primer lugar dividimos los datos de la Tabla 1.1 en sus partes entera y fraccionaria. Por ejemplo, si tomamos la primera observación 154.9 cm, la dividiremos como 154 | 9. De esta forma, la parte entera de cada número se dispondrá a la izquierda de una barra vertical, y la parte fraccionaria a la derecha. Para el conjunto de las 100 estaturas, el diagrama de tallo y hojas se muestra a continuación.
10
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
FIGURA 1.9
154 156 158 160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198
Diagrama de tallo y hojas.
| | | | | | | | | | | | | | | | | | | | | | |
9
00 666 11 66666 222222222 777777777 333333333333 8888888888 333333333333333 999999999999 44444 0000000 55 0000 6 1
El primer renglón del diagrama 154 | 9 nos indica que la lista contiene el valor 154.9 cm; el segundo y tercer renglones nos indican que la lista no contiene valores en el intervalo [155, 160] cm; el cuarto renglón nos indica que la lista contiene dos valores iguales a 160.0 cm. Observamos que el diagrama de tallo y hojas tiene la misma forma de montículo que el diagrama de puntos. La diferencia consiste en que la orientación ha cambiado de horizontal a vertical y que ahora es posible distinguir los valores originales.
1.3
TIPOS DE VARIABLES Las variables pueden ser clasificadas en dos categorías: cualitativas y cuantitativas. Definición Las variables cualitativas miden una cualidad o característica en cada unidad experimental. Las variables cuantitativas miden una cantidad numérica en cada unidad experimental.
MI CONSEJO
Cualitativo ⇔ “calidad” o característica Cuantitativo ⇔ “cantidad” o número
Las variables cualitativas producen datos que se clasifican de acuerdo con similitudes o diferencias en clase; por lo tanto, con frecuencia se denominan datos categóricos. Las variables como género, año y especialidad en el ejemplo 1.1 son variables cualitativas que producen datos categóricos. Otros ejemplos son: • • •
Afiliación política: republicano, demócrata, independiente Clasificación de sabor: excelente, bueno, regular, malo Color de un dulce M&M’s®: café, amarillo, rojo, anaranjado, verde, azul
Las variables cuantitativas, con frecuencia representadas por la letra x, producen datos numéricos. Por ejemplo: • • • •
x = tasa preferencial de interés x = número de pasajeros en un vuelo de Los Ángeles a Nueva York x = peso de un paquete listo para ser enviado x = volumen de jugo de naranja en un vaso
Observe que hay una diferencia en los tipos de valores numéricos que toman estas variables cuantitativas. El número de pasajeros, por ejemplo, toma solo los valores x = 0, 1, 2, ..., mientras que
DISTRIBUCIÓN DE FRECUENCIA Y ALGUNAS GRÁFICAS PARA DATOS CATEGÓRICOS
11
el peso de un paquete puede tomar cualquier valor mayor que cero, o sea 0 < x < . Para describir esta diferencia, definimos dos tipos de variables cuantitativas: discretas y continuas.
Definición Una variable discreta toma solo un número finito o contable de valores. Una variable continua puede tomar infinitamente muchos valores correspondientes a los puntos en un intervalo de recta. El término discreta se refiere a las brechas discretas que la variable puede tomar. Variables como el número de miembros de una familia, el número de ventas de automóviles nuevos y el número de llantas defectuosas devueltas para cambio son ejemplos de variables discretas. Por el contrario, variables como la estatura, peso, tiempo, distancia y volumen son continuas porque son capaces de tomar valores en cualquier punto a lo largo de un intervalo de recta. Para cualquier par de valores que se elijan, ¡un tercer valor siempre se hallará entre ellos!
EJEMPLO
1.5
Identifique como cualitativas o cuantitativas cada una de las siguientes variables: 1. 2. 3. 4. 5.
MI CONSEJO
Es frecuente que las variables discretas comprendan el “número” de artículos de un conjunto
El uso más frecuente de su horno de microondas (recalentar, descongelar, calentar, otros) El número de consumidores que se niegan a contestar una encuesta por teléfono La puerta elegida por un ratón en un experimento de laberinto (A, B o C) El tiempo ganador para un caballo que corre en el Derby de Kentucky El número de niños en un grupo de quinto grado que leen al nivel de ese grado o mejor
Solución Las variables 1 y 3 son cualitativas porque solo una cualidad o característica se mide para cada individuo. Las categorías para estas dos variables se muestran entre paréntesis. Las otras tres variables son cuantitativas. Las variables 2 y 5 son discretas, pueden tomar cualquiera de los valores x = 0, 1, 2, ..., con un valor máximo que depende del número de consumidores llamados o del número de niños que haya en el grupo, respectivamente. La variable 4, el tiempo ganador para un caballo del Derby de Kentucky, es la única variable continua de la lista. El tiempo ganador, si pudiera medirse con bastante precisión, podría ser 121 segundos, 121.5 segundos, 121.25 segundos o cualquier valor entre dos tiempos que hemos puesto en la lista. ¿Por qué deberían interesarle los diferentes tipos de variables (que se muestran en la Figura 1.10) y los datos que generan? La razón es que diferentes tipos de datos requieren que utilice diferentes métodos para su descripción, ¡de modo que los datos sean presentados con claridad y de una manera comprensible para el público!
FIGURA 1.10
Datos
Tipos de datos
Cualitativos
Cuantitativos
Discretos
1.4
Continuos
DISTRIBUCIÓN DE FRECUENCIA Y ALGUNAS GRÁFICAS PARA DATOS CATEGÓRICOS Una vez recolectados los datos, estos deben consolidarse y resumirse para mostrar la siguiente información: • •
Qué valores de la variable han sido medidos. Con qué frecuencia se presenta cada uno de los valores.
12
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
Para este fin, se construye una tabla estadística, para mostrar gráficamente los datos como una distribución de datos. El tipo de gráfica que se elija depende del tipo de variable que se haya medido. Cuando la variable de interés es cualitativa o categórica, la tabla estadística es una lista de las categorías incluidas junto con una medida de la frecuencia con que se presenta cada valor. Es posible medir “la frecuencia” en tres formas diferentes: • • •
La frecuencia absoluta o número de mediciones en cada categoría La frecuencia relativa o proporción de mediciones en cada categoría El porcentaje o proporción de mediciones en cada categoría
Por ejemplo, si con n representamos el número total de mediciones en el conjunto, se puede hallar la frecuencia relativa y porcentaje usando estas relaciones: Frecuencia relativa Porcentaje
Frecuencia _________ n 100 Frecuencia relativa
Encontrará que la suma de las frecuencias es siempre n, la suma de las frecuencias relativas es 1 y la suma de los porcentajes es 100%. Las categorías para una variable cualitativa deben elegirse de modo que: • •
una medición pertenecerá a una y solo a una categoría, cada medición tiene una categoría a la que se asigna.
Definición el valor.
MI CONSEJO
Tres pasos para una distribución de datos: (1) Datos sin elaborar ⇒ (2) Tabla estadística ⇒ (3) Gráfica
EJEMPLO
1.6
La frecuencia relativa de un valor es la fracción o proporción de las veces que ocurre
Por ejemplo, si se clasifican productos cárnicos de acuerdo con el tipo de carne utilizada, se pueden usar estas categorías: res, pollo, mariscos, puerco, pavo, otra. Para clasificar los rangos del cuerpo docente de alguna universidad se usan estas categorías: profesor, profesor adjunto, profesor auxiliar, instructor, conferenciante, otro. La categoría “otro” está incluida en ambos casos para tomar en cuenta la posibilidad de que una medición no pueda asignarse a ninguna de las categorías anteriores. Una vez que a las mediciones se les dieron categorías y se resumieron en una tabla estadística, se utiliza ya sea una gráfica de pastel o una gráfica de barras para mostrar la distribución de los datos. Una gráfica de pastel es la conocida gráfica circular, que muestra la forma en que están distribuidas las medidas entre las categorías. Una gráfica de barras muestra la misma distribución de medidas en las categorías; la altura de la barra mide la frecuencia observada de una categoría en particular. En una encuesta sobre la educación pública, se pidió a 400 administradores de escuelas que calificaran la calidad de la educación en Estados Unidos. Sus respuestas están resumidas en la Tabla 1.3. Elabore una gráfica de pastel y una de barras a partir de este conjunto de datos. Solución Para construir una gráfica de pastel, asigne un sector del círculo a cada categoría. El ángulo de cada sector debe ser proporcional a la magnitud de las mediciones (o frecuencia relativa) en esa categoría. Como un círculo contiene 360°, aplique esta ecuación para hallar el ángulo: Ángulo
TABLA 1.3
Frecuencia relativa
360°
Calificación de la educación en Estados Unidos hecha por 400 educadores Calificación Frecuencia A B C D
35 260 93 12
Total
400
DISTRIBUCIÓN DE FRECUENCIA Y ALGUNAS GRÁFICAS PARA DATOS CATEGÓRICOS
MI CONSEJO
Las proporciones suman 1; los porcentajes, 100; los ángulos de sector, 360°
13
La Tabla 1.4 muestra las calificaciones junto con las frecuencias, frecuencias relativas, porcentajes y ángulos de sector necesarios para construir la gráfica de pastel. La Figura 1.11 muestra la gráfica de pastel construida a partir de los valores de la tabla. Mientras que las gráficas de pastel usan porcentajes para determinar los tamaños relativos de las “rebanadas de pastel”, las de barras por lo general grafican la frecuencia contra las categorías. Una gráfica de barras para estos datos se muestra en la Figura 1.12. Cálculos para la gráfica de pastel del Ejemplo 1.6
TABLA 1.4
Calificación Frecuencia A B C D
Frecuencia relativa
35 260 93 12
Total
35/400 260/400 93/400 12/400
400
.09 .65 .23 .03
Porcentaje 9% 65% 23% 3%
1.00
100%
Ángulo .09 360 234.0º 82.8º 10.8º
32.4º
360º
El impacto visual de estas dos gráficas es un poco diferente. La gráfica de pastel se usa para mostrar las relaciones de las partes respecto al todo; la gráfica de barras, para destacar la cantidad real o frecuencia para cada categoría. Como las categorías en este ejemplo son “calificaciones” ordenadas (A, B, C, D), no desearíamos reacomodar las barras de la gráfica para cambiar su forma. En una gráfica de pastel, el orden de presentación es irrelevante.
D 3.0%
FIGURA 1.11
Gráfica de pastel para el Ejemplo 1.6
A 9%
C 23.3%
B 65.0%
250
Gráfica de barras para el Ejemplo 1.6
200 Frecuencia
FIGURA 1.12
150
100
50
0 A
B
C
D
Calificación
EJEMPLO
1.7
Una bolsa tamaño botana de dulces de cacahuate M&M’s contiene 21 dulces con los colores que se indican en la Tabla 1.5. La variable “color” es cualitativa, por tanto la Tabla 1.6 lista las seis categorías junto con un registro del número de dulces de cada color. Las últimas tres columnas de la Tabla 1.6 muestran con cuanta frecuencia ocurre cada categoría. Como las categorías son colores y no tienen un orden particular, se pueden construir gráficas de barras con muchas formas diferentes con solo reordenar las barras. Para enfatizar que el café es el color más frecuente, seguido por el azul, el verde y el anaranjado, ordenamos las barras de mayor a menor y generamos la gráfica de barras de la Figura 1.13. Una gráfica de barras en la que las barras están ordenadas de mayor a menor se denomina gráfica de Pareto.
14
CAPÍTULO 1
TABLA 1.5
DISTRIBUCIÓN DE FRECUENCIA
Datos sin elaborar: colores de 21 dulces Verde Rojo Naranja Azul Azul
Café Rojo Amarillo Café Naranja Amarillo
TABLA 1.6
Azul Café Azul Café Naranja
Café Verde Verde Azul Café
Tabla estadística: datos de M&M’S para el ejemplo 1.7 Categoría
Registro
Frecuencia
Frecuencia relativa
Porcentaje
IIIII I III III II II IIII
6 3 3 2 2 5
6/21 3/21 3/21 2/21 2/21 5/21
28% 14% 14% 10% 10% 24%
Café Verde Naranja Amarillo Rojo Azul Total
21
1
100%
6
FIGURA 1.13
Frecuencia
5
Gráfica de Pareto para el ejemplo 1.7
4 3 2 1 0 Café
Azul
Verde
Naranja
Amarillo
Rojo
Color
Momento de práctica
CAPÍTULO 1
1.1 ¿Discreta o continua? Identifique cada una de las variables cuantitativas como discretas o continuas.
c. Identifique la población de interés para el investigador médico.
a. Número de accidentes en botes en un tramo de 50 millas del río Colorado.
d. Describa la forma en que el investigador podría seleccionar una muestra de entre la población.
b. Tiempo para completar un cuestionario.
e. ¿Qué problemas podrían surgir al obtener una muestra de esta población?
c. Costo de una lechuga. d. Número de hermanos y hermanas que usted tenga. e. Rendimiento en kilogramos de trigo para un terreno de 1 hectárea de un trigal. 1.2 Actitudes del electorado Usted es candidato a la legislatura de su estado y desea hacer una encuesta de las actitudes del electorado sobre sus probabilidades de ganar. Identifique la población que es de interés para usted y de la cual le gustaría seleccionar una muestra. ¿En qué forma esta población depende del tiempo? 1.3 Tiempos de supervivencia al cáncer Un investigador médico desea estimar el tiempo de supervivencia de un paciente, después del inicio de cierto tipo de cáncer y de un régimen particular de radioterapia.
1.4 Nuevos métodos de enseñanza Un investigador educacional desea evaluar la eficacia de un nuevo método de enseñanza de lectura a estudiantes sordos. El logro es medido al final de un periodo de enseñanza por la calificación de un estudiante en un examen de lectura. a. ¿Cuál es la variable que se medirá? ¿Qué tipo de variable es? b. ¿Cuál es la unidad experimental? c. Identifique la población de interés para el experimentador. 1.5 Unidades experimentales Identifique las unidades experimentales en las que se miden las variables siguientes: a. Género de un estudiante. b. Número de errores en un examen de medio semestre.
a. ¿Cuál es la variable de interés para el investigador médico?
c. Edad de un paciente con cáncer.
b. ¿La variable de la parte a es cualitativa, cuantitativa discreta o cuantitativa continua?
d. Número de flores en una planta de azalea. e. Color de un automóvil que entra a un estacionamiento.
FRECUENCIAS RELATIVAS ACUMULADAS
1.6 Usuarios de Facebook El sitio de la red social Facebook ha crecido con rapidez desde sus comienzos, EX0106 en 2004. De hecho, su base de usuarios en Estados Unidos creció de 42 millones a 103 millones entre 2009 y 2010. La tabla siguiente muestra la distribución de edad de los usuarios de Facebook (en miles) conforme cambió, de enero de 2009 a enero de 2010.
15
f. Consulte las partes d y e. ¿Cómo describiría los cambios en las distribuciones de edad de los usuarios de Facebook durante este periodo de un año? 1.7 Continua o discreta otra vez Identifique cada variable como continua o discreta: a. Peso de dos docenas de camarones. b. Temperatura corporal de una persona.
Edad 13–17 18–24 25–34 35–54 55 Desconocida Total
El 1/04/2009
El 1/04/2010
5 675 17 192 11 255 6 989 955 23 42 089
c. Número de personas en espera de tratamiento en la sala de emergencia de un hospital.
10 680 26 076 25 580 29 918 9 764 1 068 103 086
d. Número de propiedades a la venta de una agencia de bienes raíces. e. Número de reclamaciones recibidas por una compañía de seguros en un día. 1.8 Continua o discreta, otra vez Identifique cada variable como continua o discreta:
a. Defina la variable que se ha medido en esta tabla. b. ¿La variable es cuantitativa o cualitativa?
a. Número de personas en la fila de espera en la caja de pago de un supermercado.
c. ¿Qué representan los números?
b. Profundidad de una nevada.
d. Construya una gráfica de pastel para describir la distribución de edad de los usuarios de Facebook el 4 de enero de 2009.
c. Tiempo para que un conductor responda ante un choque inminente.
e. Construya una gráfica de pastel para describir la distribución de edad de los usuarios de Facebook el 4 de enero de 2010.
d. Número de aviones que llegan al aeropuerto de Atlanta en una hora determinada.
1.5
FRECUENCIAS RELATIVAS ACUMULADAS La distribución de frecuencias relativas acumuladas constituye una manera de presentar la información del porcentaje de valores que están por debajo de cierto valor. Dada una muestra: x1, x2, ..., xn Si para un cierto valor xi sumamos todas las frecuencias correspondientes a los valores de la muestra que son menores o iguales que xi se obtiene la frecuencia acumulada. Al igual que en la frecuencia relativa, la frecuencia relativa acumulada se define por
Frecuencia relativa acumulada =
Frecuencia acumulada n
Porcentaje = 100 Frecuencia relativa acumulada
EJEMPLO
1.8
Las siguientes puntuaciones representan la calificación en el examen final para un curso de estadística elemental: 5
3
7
4
3
1
6
9
0
4
3
5
10 0
2
8
3
0
9
5
6
2
4
2
3
6
8
7
1
4
De los datos anteriores, tenemos que la distribución de frecuencias de las calificaciones se muestra en la Tabla 1.7:
16
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
Distribución de frecuencias
TABLA 1.7
Calificaciones
Frecuencia
0
3
1
2
2
3
3
5
4
4
5
3
6
3
7
2
8
2
9
2
10
1
La distribución de frecuencias relativas acumuladas de las calificaciones se visualiza en la Tabla 1.8:
Distribución de frecuencuas relativas acumnuladas
TABLA 1.8
Calificaciones
Frecuencia acumulada
Frecuencia relativa acumulada
0
3
.1
1
5=3+2
.16
2
8 = 3+2+ 3
.26
3
13 = 3+2+3+5
.43
4
17 = 3+2+3+5+4
.56
5
20 = 3+2+3+5+4+3
.66
6
23 = 3+2+3+5+4+3+3
.76
7
25 = 3+2+3+5+4+3+3+2
.83
8
27 = 3+2+3+5+4+3+3+2+2
.90
9
29 = 3+2+3+5+4+3+3+2+2+2
10
30 = 3+2+3+5+4+3+3+2+2+2+1
.96 1.00
La tabla anterior nos dice, por ejemplo, que 76% de los estudiantes obtuvo entre 0 y 6 de calificación final en el curso de estadística elemental.
1.6
GRÁFICAS PARA DATOS CUANTITATIVOS Las variables cuantitativas miden una cantidad en cada unidad experimental. Si la variable puede tomar solo un número finito o contable de valores, es una variable discreta. Una variable que puede tomar un número infinito de valores correspondientes a los puntos en un intervalo de recta se llama continua.
Gráficas de pastel y gráficas de barras A veces, la información se recolecta para una variable cuantitativa medida en segmentos diferentes de la población, o para distintas categorías de clasificación. Por ejemplo, se podría medir el promedio de ingresos de personas de diferentes grupos de edad, géneros, o que viven en distintas zonas geográficas del país. En tales casos se usan gráficas de pastel o gráficas de barras para describir los datos, por medio del uso de la cantidad medida, en lugar de la frecuencia con que se presenta cada una de las categorías. La gráfica de pastel muestra la forma en que está distribuida la cantidad total entre las categorías y la gráfica de barras usa la altura de la barra para mostrar la cantidad de una categoría en particular.
GRÁFICAS PARA DATOS CUANTITATIVOS
EJEMPLO
1.9
TABLA 1.9
17
La cantidad de dinero gastada en el año fiscal 2009 por el departamento de defensa de Estados Unidos en varias categorías se muestra en la Tabla 1.9. Construya una gráfica de pastel y una gráfica de barras para describir los datos. Compare las dos formas de presentación. Gastos por categoría Gasto en 2009 (miles de millones de dólares)
Categoría Personal militar Operación y mantenimiento Adquisiciones Investigación y desarrollo Construcción militar Otra Total
$147.3 $259.3 $129.2 $79.0 $17.6 $4.3 $636.7
Fuente: The World Almanac and Book of Facts 2011
250 200 150 100 50
tra O
n
s
0
Co m nstr ili uc ta c r ió
Gráfica de barras para el Ejemplo 1.9
Pe r m son ili al ta r O pe m ra an ció te n ni y m ie nt A o dq ui ci on es In v de est sa iga rro ci llo ón y
FIGURA 1.14
Cantidad (miles de millones de dólares)
Solución Se miden dos variables: la categoría de gasto (cualitativa) y la cantidad del gasto (cuantitativa). La gráfica de barras de la Figura 1.14 muestra las categorías en el eje horizontal y las cantidades en el eje vertical.
Para la gráfica de pastel de la Figura 1.15, cada sector representa la proporción de los gastos totales ($636 700 millones de dólares) correspondientes a su categoría en particular. Por ejemplo, para la categoría de investigación y desarrollo, el ángulo del sector es: 79.0 360° = 44.7° 636.7
FIGURA 1.15
Gráfica de pastel para el Ejemplo 1.9
Investigación y desarrollo 79.0
Construcción militar 17.6 Personal militar 147.3
Adquisiciones 129.2
Otras 4.3
Operación y mantenimiento 259.3
Ambas gráficas muestran que las cantidades más grandes de dinero se gastaron en personal y operaciones. Como no hay un orden inherente a las categorías, hay libertad para reacomodar las barras o los sectores de las gráficas en cualquier forma deseada. La forma de la gráfica de barras no tiene nada que ver con su interpretación.
18
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
Gráficas de líneas Cuando una variable cuantitativa se registra en el tiempo a intervalos igualmente espaciados (por ejemplo diario, semanal, mensual, trimestral o anual), el conjunto de datos forma una serie de tiempo. Los datos de una serie de tiempo se presentan con más efectividad en una gráfica de líneas con el tiempo como eje horizontal. La idea es tratar de distinguir un patrón o tendencia que sea probable de continuar, y usar ese patrón para hacer predicciones precisas para el futuro inmediato.
EJEMPLO
1.10
TABLA 1.10
En 2025, el mayor de los baby boomers (nacido en 1946) tendrá 79 años de edad, y el mayor de los de la Generación X (nacido en 1965) estará a dos años de ser elegible para el Seguro Social. ¿Cómo afectará esto a las tendencias del consumidor en los siguientes 15 años? ¿Habrá suficientes fondos para que los baby boomers reciban prestaciones del Seguro Social? La Oficina de Censos de Estados Unidos aporta proyecciones para el grupo de la población estadounidense que tendrá 85 años o más en los próximos años, como se muestra en la Tabla 1.10. Construya una gráfica de línea para visualizar los datos. ¿Cuál es el efecto de prolongar o contraer el eje vertical de la gráfica de línea?
Proyecciones de crecimiento de población Año 85 o más (millones)
2020
2030
2040
2050
6.6
8.7
14.2
19.0
Fuente: The World Almanac and Book of Facts 2011
¡Tenga cuidado de no prolongar o contraer los ejes cuando vea una gráfica!
Solución La variable cuantitativa “85 o más” se mide en cuatro años, con lo cual se crea una serie de tiempo que se representa con una gráfica de línea. Los años están marcados en el eje horizontal y las proyecciones en el eje vertical. Los puntos de datos se enlazan entonces por medio de segmentos de línea para formar las gráficas de línea de la Figura 1.16. Observe la marcada diferencia en las escalas verticales de las dos gráficas. Contraer la escala del eje vertical hace que grandes cambios aparezcan pequeños y viceversa. Para evitar conclusiones erróneas, se deben ver con cuidado las escalas de los ejes vertical y horizontal. No obstante, de ambas gráficas se obtiene una imagen clara del número constantemente creciente de quienes tengan 85 años o más en las primeras décadas del milenio.
FIGURA 1.16
20.0 85 y mayores (Millones)
Gráfica de línea para el Ejemplo 1.10
85 y mayores (Millones)
MI CONSEJO
17.5 15.0 12.5 10.0 7.5
100 80 60 40 20
5.0 2020
2030
2040 Año
2050
2020
2030
2040
2050
Año
Gráficas de puntos Muchos conjuntos de datos cuantitativos están formados por números que no se pueden separar fácilmente en categorías o intervalos. En consecuencia, ¡se necesita una forma diferente de graficarlos! La gráfica más sencilla para datos cuantitativos es la gráfica de puntos. Para un conjunto pequeño de mediciones (por ejemplo, el conjunto 2, 6, 9, 3, 7, 6) simplemente se grafican las mediciones como puntos en un eje horizontal, como se muestra en la Figura 1.17(a). Para un conjunto grande de datos, como el de la Figura 1.17(b), la gráfica de puntos puede ser poco útil y tediosa en cuanto a la interpretación de la información.
GRÁFICAS PARA DATOS CUANTITATIVOS
FIGURA 1.17
19
(a)
Gráficas de puntos para conjuntos de datos pequeños y grandes
2
3
4
5 6 Conjunto pequeño
1.12
1.19 1.26 Conjunto grande
7
8
9
(b)
0.98
1.05
1.33
1.40
1.47
Gráficas de tallo y hoja Otra forma sencilla de visualizar la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja. Esta gráfica presenta una disposición de los datos por medio del uso de los valores numéricos reales de cada observación.
NECESITO SABER... Cómo construir una gráfica de tallo y hoja 1. Divida cada dato en dos partes: el tallo y las hojas. 2. Enliste en orden ascendente los tallos en una columna, con una línea vertical a su derecha. 3. Para cada medición, registre la parte de hoja a la derecha de su tallo correspondiente, en el mismo renglón. 4. Ordene las hojas de menor a mayor en cada tallo. 5. Dé una clave a su codificación de tallo y hoja para que el lector recree las mediciones reales si así lo requiere.
EJEMPLO
1.11
TABLA 1.11
La Tabla 1.11 es una lista de precios (en dólares) de 19 marcas de zapatos deportivos. Construya una gráfica de tallo y hoja para mostrar la distribución de los datos. Precios de zapatos deportivos 90 65 75 70
70 68 70
70 60 68
70 74 65
75 70 40
70 95 65
Solución Para crear la gráfica de tallo y hoja se divide cada observación entre las unidades y las decenas. El número a la izquierda es el tallo; el de la derecha es la hoja. Entonces, para los zapatos que cuestan $65.00, el tallo es 6 y la hoja es 5. Los tallos, que van de 4 a 9, aparecen en la Figura 1.18, junto con las hojas para cada una de las 19 mediciones. Si indicamos que la unidad de hoja es 1, el lector sabrá que el tallo 6 y la hoja 8, por ejemplo, representan el número 68 registrado al dolar más cercano. FIGURA 1.18
Gráfica de tallo y hoja para los datos de la Tabla 1.10
4 5 6 7 8 9
0
Unidad de hoja
1
4 5 580855 Reordenamiento ⎯→ 6 0005040500 7 8 05 9
0 055588 0000000455 05
20
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
A veces, las opciones de tallo disponibles resultan en una gráfica que contiene muy pocos tallos y un gran número de hojas dentro de cada tallo. En esta situación, se prolongan los tallos al dividir cada uno en varias líneas, lo cual depende de los valores de hojas que se les asignen. Por lo general, los tallos se dividen en dos formas:
MI CONSEJO
tallo | hoja
• •
EJEMPLO
1.12
TABLA 1.12
En dos líneas, con las hojas 0-4 en la primera línea y las hojas 5-9 en la segunda línea. En cinco líneas, con las hojas 0-1, 2-3, 4-5, 6-7 y 8-9 en las cinco líneas, respectivamente.
Los datos de la Tabla 1.12 son los pesos de 30 bebés de gestación completa al momento de nacer en un hospital metropolitano y cuyos pesos están registrados al décimo de libra más cercano. Construya una gráfica de tallo y hoja para mostrar la distribución de los datos.
Pesos en libras de 30 bebés de gestación completa al momento de nacer 7.2 8.0 8.2 5.8 6.1 8.5
7.8 8.2 7.7 6.8 7.9 9.0
6.8 5.6 7.5 6.8 9.4 7.7
6.2 8.6 7.2 8.5 9.0 6.7
8.2 7.1 7.7 7.5 7.8 7.7
Solución Los datos, aun cuando están registrados a una precisión de solo un lugar decimal, son mediciones de la variable continua x = peso, que puede tomar cualquier valor positivo. Al examinar la Tabla 1.11, se observa que los pesos más alto y más bajo son 9.4 y 5.6, respectivamente. Pero, ¿cómo están distribuidos los pesos restantes? Si se usa el punto decimal como línea divisoria entre el tallo y las hojas, se obtienen solo cinco tallos que no producen una imagen muy precisa. Cuando se divide cada uno de los tallos en dos líneas, hay ocho tallos, porque la primera línea del tallo 5 y la segunda línea del tallo 9 están vacías. Esto produce una gráfica más descriptiva, como se muestra en la Figura 1.19. Para estos datos, la unidad de hoja es .1 y el lector puede inferir que el tallo 8 y la hoja 2 por ejemplo, representan la medición x = 8.2 libras. FIGURA 1.19
Gráfica de tallo y hoja para los datos de la Tabla 1.13
5 6 6 7 7 8 8 9
86 12 8887 Reordenamiento → 221 879577587 0222 565 040 Unidad de hoja .1
5 6 6 7 7 8 8 9
68 12 7888 122 557777889 0222 556 004
Si la gráfica de tallo y hoja se gira hacia un lado de modo que la recta vertical sea ahora un eje horizontal, se observa que los datos se han “apilado” o “distribuido” a lo largo del eje, de modo que se puede describir como “forma de montículo”. Esta gráfica muestra que los pesos de estos 30 recién nacidos varían entre 5.6 y 9.4; muchos pesos están entre 7.5 y 8.0 libras.
Interpretación de gráficas con ojo crítico Una vez creada una o varias gráficas para un conjunto de datos, ¿qué debe buscarse al tratar de describir los datos? • • •
Primero, verificar las escalas de los ejes horizontal y vertical, de manera que haya claridad en relación con lo que se mide. Examinar el lugar de la distribución de datos. ¿Dónde está el centro de distribución en el eje horizontal? Si se comparan dos distribuciones, ¿están centradas en el mismo lugar? Examinar la forma de la distribución. ¿La distribución tiene un “pico”, un punto que es más alto que cualquier otro? Si es así, esta es la medición o categoría que se presenta con más frecuencia. ¿Hay más de un pico? ¿Hay un número aproximadamente igual de mediciones a la izquierda y a la derecha del pico?
GRÁFICAS PARA DATOS CUANTITATIVOS
•
21
Buscar las mediciones poco comunes o resultados atípicos. Esto es, ¿hay mediciones mucho mayores o menores que las otras? Es posible que estos resultados atípicos no sean representativos de los otros valores del conjunto.
Es frecuente que las distribuciones se describan según sus formas. Definición Una distribución es simétrica si los lados izquierdo y derecho de la distribución, cuando esta se divide en el valor medio, forman imágenes espejo. Una distribución está sesgada a la derecha si una proporción más grande de las mediciones se encuentra a la derecha del valor pico. Las distribuciones sesgadas a la derecha contienen pocas mediciones anormalmente grandes. Una distribución está sesgada a la izquierda si una proporción mayor de las mediciones se encuentra a la izquierda del valor pico. Las distribuciones sesgadas a la izquierda contienen pocas mediciones anormalmente pequeñas. Una distribución es unimodal si tiene un pico; una distribución bimodal tiene dos picos. Las distribuciones bimodales representan a veces una combinación de dos poblaciones diferentes en el conjunto de datos.
EJEMPLO
1.13
Examine las tres gráficas de puntos que se muestran en la Figura 1.20. Describa estas distribuciones en términos de sus ubicaciones y formas.
FIGURA 1.20
Formas de distribución de datos para el Ejemplo 1.13 1
2
3
4
5
6
7
2
4
6
8
2
4
6
8
MI CONSEJO
Simétrica ⇔ imágenes espejo Sesgada a la derecha ⇔ cola larga a la derecha Sesgada a la izquierda ⇔ cola larga a la izquierda
EJEMPLO
1.14
Solución La primera gráfica de puntos muestra una distribución relativamente simétrica con un solo pico situado en x = 4. Si se dobla la página en este pico, las mitades izquierda y derecha casi serían imágenes espejo. La segunda gráfica, no obstante, está lejos de ser simétrica. Tiene una larga “cola derecha”, lo cual significa que hay unas pocas observaciones anormalmente grandes. Si se dobla la página en el pico, estaría en el lado derecho una proporción de mediciones más grande que en el izquierdo. Esta distribución está sesgada a la derecha. Análogamente, la tercera gráfica de puntos con una larga “cola a la izquierda” está sesgada a la izquierda.
Un asistente administrativo del departamento de atletismo de una universidad local observa los promedios de calificaciones de ocho miembros del equipo femenil de volibol. El asistente introduce los promedios en la base de datos, pero por accidente coloca mal el punto decimal de la última entrada. 2.8
3.0
3.0
3.3
2.4
3.4
3.0
.21
22
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
Use una gráfica de puntos para describir los datos y descubrir el error del asistente. Solución La gráfica de puntos de este pequeño conjunto de datos se muestra en la Figura 1.21(a). Claramente se distingue el resultado atípico u observación poco común causada por el error del asistente al introducir los datos. Una vez corregido el error, como en la Figura 1.21(b), se observa la distribución correcta del conjunto de datos. Como este es un conjunto muy pequeño, es difícil describir la forma de la distribución aun cuando parece tener un valor pico alrededor de 3.0 y parece ser relativamente simétrica. (a) FIGURA 1.21
Distribuciones de promedios de calificaciones para el Ejemplo 1.14 0.5
1.0
1.5 2.0 2.5 Promedios de calificaciones
2.2
2.4
2.6 2.8 3.0 Promedios de calificaciones
3.0
3.5
(b)
MI CONSEJO
Los resultados atípicos están lejos del cuerpo principal de datos
1.7
3.2
3.4
Cuando se comparen gráficas creadas para dos conjuntos de datos, se deben comparar sus escalas de medición, ubicaciones y formas, y buscar mediciones poco comunes o atípicas. Recuerde que estos últimos no siempre son causados por la introducción errónea de datos. A veces dan información muy valiosa que no debe ser soslayada. Es posible que se necesite más información para determinar si un resultado atípico es una medición válida que solo sea anormalmente grande o pequeña, o si ha habido algún tipo de error en la recolección de datos. Si las escalas difieren mucho, debe tenerse cuidado al hacer comparaciones o ¡podría sacar conclusiones imprecisas!
HISTOGRAMAS DE FRECUENCIA RELATIVA Un histograma de frecuencia relativa es semejante a una gráfica de barras, pero se usa para graficar cantidades en lugar de datos cualitativos. Los datos de la Tabla 1.13 son los pesos de 30 bebés de gestación completa al momento de nacer, reproducidos del Ejemplo 1.12 y mostrados como gráfica de puntos en la Figura 1.22(a). Primero, se divide el intervalo de las mediciones más pequeñas a las más grandes en subintervalos o clases de igual longitud. Si se colocan en columna los puntos de cada subintervalo (Figura 1.22(b)) y se traza una barra sobre cada una de las columnas, se habrá creado un histograma de frecuencia o un histograma de frecuencia relativa, lo cual depende de la escala del eje vertical.
TABLA 1.13
Pesos de 30 bebés de gestación completa al momento de nacer 7.2 8.0 8.2 5.8 6.1 8.5
7.8 8.2 7.7 6.8 7.9 9.0
6.8 5.6 7.5 6.8 9.4 7.7
6.2 8.6 7.2 8.5 9.0 6.7
8.2 7.1 7.7 7.5 7.8 7.7
FIGURA 1.22
Cómo construir un histograma
(a) 6.0
6.6
7.2
7.8 Pesos al nacer
8.4
9.0
(b) 6.0
6.5
7.0
7.5 8.0 Pesos al nacer
8.5
9.0
9.5
HISTOGRAMAS DE FRECUENCIA RELATIVA
23
Definición Un histograma de frecuencia relativa para un conjunto de datos cuantitativos es una gráfica de barras en la que la altura de la barra muestra “con qué frecuencia” (medida como proporción o frecuencia relativa) las mediciones caen en una clase o subintervalo particular. Las clases o subintervalos se grafican a lo largo del eje horizontal. Como regla práctica, el número de clases debe ser de 5 a 12; cuantos más datos haya, más clases se requieren.† Las clases deben ser elegidas para que cada una de las mediciones caiga en una y solo una clase. Para los pesos al nacer que se muestran en la Tabla 1.12, decidimos usar ocho intervalos de igual longitud. Como el rango de pesos al nacer es: 9.4 – 5.6 = 3.8 el ancho mínimo de clase necesario para cubrir el margen de los datos es (3.8 ÷ 8) = .475. Para más comodidad, redondeamos este ancho aproximándolo a .5. Si el primer intervalo empieza con el valor más bajo, 5.6, formamos subintervalos desde 5.6 hasta, pero no incluyendo 6.1, de 6.1 hasta, pero no incluyendo 6.6, y así sucesivamente. Al utilizar el método de inclusión izquierda, que incluye el punto de frontera izquierda de clase pero no el punto de frontera derecha de clase, se elimina cualquier confusión acerca de dónde ubicar una medición que caiga exactamente en un punto de frontera de clase. La Tabla 1.14 muestra las ocho clases, marcadas de 1 a 8 para identificarlas. Las fronteras para las ocho clases, junto con un total del número de mediciones que caen en cada una de ellas, también se muestran en la tabla. Al igual que con las gráficas de la sección 1.4, podemos ahora medir con qué frecuencia relativa se presenta cada clase al usar frecuencia o frecuencia relativa. Para construir el histograma de frecuencia relativa, grafique las fronteras de clase a lo largo del eje horizontal. Trace una barra sobre cada intervalo de clase, con altura igual a la frecuencia relativa para esa clase. El histograma de frecuencia relativa para los datos de peso al nacer (Figura 1.23) muestra de un vistazo la forma en que están distribuidos los pesos de los bebés al nacer en el intervalo de 5.6 a 9.4.
TABLA 1.14
Frecuencias relativas para los datos de la Tabla 1.12 Fronteras de clase
Clase
Registro
Frecuencia de clase
Frecuencia relativa de clase
2 2 4 5 8 5 3 1
2/30 2/30 4/30 5/30 8/30 5/30 3/30 1/30
MI CONSEJO
1 2 3 4 5 6 7 8
Las frecuencias relativas totalizan 1; las frecuencias totalizan n
5.6 a 6.1 a 6.6 a 7.1 a 7.6 a 8.1 a 8.6 a 9.1 a
6.1 6.6 7.1 7.6 8.1 8.6 9.1 9.6
II II IIII IIII IIII III IIII III I
FIGURA 1.23
Histograma de frecuencia relativa
8/30
Frecuencia relativa
7/30 6/30 5/30 4/30 3/30 2/30 1/30 0 5.6
6.1
6.6
7.1
7.6 8.1 Pesos al nacer
8.6
9.1
9.6
†
Es posible emplear esta tabla como guía para seleccionar un número apropiado de clases. Recuerde que esto es solo una guía; puede usar más o menos clases de las que recomienda la tabla si con ello se hace más descriptiva la gráfica.
Tamaño de la muestra 25 Número de clases
6
50
100
200
500
7
8
9
10
24
CAPÍTULO 1
EJEMPLO
TABLA 1.15
1.15
DISTRIBUCIÓN DE FRECUENCIA
Veinticinco clientes de Starbucks® son entrevistados en una encuesta de mercadeo y se les pregunta, “¿con qué frecuencia visita usted Starbucks en una semana típica?”. La Tabla 1.15 contiene las respuestas de estos 25 clientes. Construya un histograma de frecuencia relativa para describir los datos. Número de visitas en una semana típica para 25 clientes 6 4 6 5 3
7 6 5 5 5
1 4 6 5 7
5 6 3 7 5
6 8 4 6 5
Solución La variable que se mide es el “número de visitas por semana a Starbucks”, que es una variable discreta que toma solo valores enteros. En este caso, lo más sencillo es elegir las clases o subintervalos como los valores enteros en el rango de valores observados: 1, 2, 3, 4, 5, 6 y 7. La Tabla 1.16 muestra las clases y sus frecuencias absolutas y relativas. El histograma de frecuencia relativa se muestra en la Figura 1.24. TABLA 1.16
Tabla de frecuencia para el Ejemplo 1.15
Número de visitas a Starbucks
Frecuencia
1 2 3 4 5 6 7 8
Frecuencia relativa
1 — 2 3 8 7 3 1
.04 — .08 .12 .32 .28 .12 .04
FIGURA 1.24
Histograma para el Ejemplo 1.15 Frecuencia relativa
8/25
6/25
4/25
2/25
0 1
2
3
4
5 6 Visitas por semana
7
8
Observe que la distribución está sesgada a la izquierda y que hay una brecha entre 1 y 3.
NECESITO SABER...
Cómo construir un histograma de frecuencia relativa 1. Elija el número de clases, por lo general entre 5 y 12. Cuantos más datos se tengan, más clases deben usarse. 2. Calcule la amplitud aproximada de clase al dividir la diferencia entre los valores máximo y mínimo entre el número de clases. 3. Redondee el ancho aproximado de clase hasta un número que pueda manejarse fácilmente. 4. Si los datos son discretos, se asigna una clase para cada valor entero en los datos. Para un número grande de valores enteros, será necesario agruparlos en clases. 5. Localice las fronteras de clase. La clase más baja debe incluir la medición más pequeña. A continuación, sume las clases restantes; use el método de inclusión izquierda. 6. Construya una tabla estadística que contenga las clases, sus absolutas y sus frecuencias relativas. 7. Construya un histograma como una barra de gráficas; grafique intervalos de clase en el eje horizontal y frecuencias relativas, como las alturas de las barras.
HISTOGRAMAS DE FRECUENCIA RELATIVA
25
Se usa un histograma de frecuencia relativa para describir la distribución de un conjunto de datos en términos de su ubicación y forma, y ver si hay observaciones atípicas como hizo usted con otras gráficas. Por ejemplo, los datos de peso al nacimiento fueron relativamente simétricos, sin mediciones poco comunes, en tanto que los datos de Starbucks estuvieron sesgados a la izquierda. Como la barra construida arriba de cada clase representa la frecuencia relativa o proporción de las mediciones en esa clase, estas alturas se utilizan para darnos información adicional: • •
La proporción de las medidas que caen en cierta clase o grupo particular de clases. La probabilidad de que una medida tomada al azar del conjunto caerá en una clase particular o grupo de clases.
Considere el histograma de frecuencia relativa para los datos del peso de bebés al nacer de la Figura 1.23. ¿Qué proporción de los recién nacidos tiene al nacer pesos de 7.6 libras o mayores? Esto abarca todas las clases de más de 7.6 en la Tabla 1.13. Como hay 17 recién nacidos en esas clases, la proporción de quienes tienen pesos al nacer de 7.6 o más es 17/30, alrededor de 57%. Este también es el porcentaje del área total bajo el histograma de la Figura 1.23 que está a la derecha de 7.6. Supongamos que usted escribió cada uno de los 30 pesos de bebés al nacer en distintos pedazos de papel, los puso en un sombrero y sacó uno de ellos al azar. ¿Cuál es la probabilidad de que este papelito contenga un peso de 7.6 libras al nacimiento o más alto? Como 17 de los 30 papelitos caen en esta categoría, hay 17 probabilidades en 30; esto es, la probabilidad es 17/30. La palabra probabilidad no es desconocida para usted; la estudiaremos con más detalle en los siguientes capítulos. Aun cuando estamos interesados en describir un conjunto de n = 30 mediciones, también podríamos estar interesados en la población de la cual se tomó la muestra, que es el conjunto de pesos al nacer de todos los bebés nacidos en este hospital. O bien, si estamos interesados en los pesos de recién nacidos en general, podríamos considerar nuestra muestra como representativa de la población de pesos al nacer de recién nacidos en hospitales metropolitanos similares. Un histograma muestra valiosa información acerca del histograma de población de la que fue extraída, es decir, la gráfica que describe la distribución de toda la población. Recuerde, sin embargo, que diferentes muestras de la misma población producirán histogramas diferentes, aun cuando se usen fronteras de la misma clase. No obstante, puede esperarse que los histogramas de la muestra y población sean similares. Al agregar más y más datos a la muestra, los dos histogramas se hacen cada vez más semejantes. Si se agranda la muestra para incluir a toda la población, ¡ambos histogramas serán idénticos!
Momento de práctica 1.9 Agua corriente Se ha sugerido agua corriente como método de acondicionamiento cardiovascular para EX0109 atletas lesionados y otros que deseen un programa de ejercicios aerobicos de bajo impacto. Un estudio publicado en la Journal of Sports Medicine investigó la relación entre la cadencia de ejercicio y la frecuencia cardiaca, al medir las frecuencias cardiacas de 20 voluntarios sanos a una cadencia de 96 pasos por minuto.11 Los datos aparecen a continuación: 87 109 79 80 96 95 90 92 96 98 101 91 78 112 94 98 94 107 81 96
Construya una gráfica de tallo y hoja para describir los datos. Analice las características de la distribución de datos. 1.10 ¿Desea ser presidente? ¿Le gustaría ser presidente de Estados Unidos? Aun cuando muchos adolescentes piensan que podrían llegar a ser presidente, la mayoría no desea el trabajo. En una encuesta de opinión realizada por ABC News, casi 80% de los adolescentes no estaban interesados en el trabajo.2 Cuando se les preguntó: “¿Cuál es la principal razón por la que no quisieras ser presidente?”, dieron estas respuestas:
CAPÍTULO 1 Otros planes de carrera/no le interesa Demasiada presión Demasiado trabajo No sería bueno para ello Demasiadas discusiones
40% 20% 15% 14% 5%
a. ¿Están consideradas todas las razones en esta tabla? Agregue otra categoría si es necesario. b. ¿Usaría usted una gráfica de pastel o una de barras para describir gráficamente los datos? ¿Por qué? c. Trace la gráfica elegida en la parte b. d. Si usted dirigiera la encuesta de opinión, ¿qué otros tipos de preguntas desearía investigar? 1.11 Construya una gráfica de tallo y hoja para estas 50 mediciones:
EX0111
3.1 2.9 3.8 2.5 4.3
4.9 2.1 6.2 3.6 5.7
2.8 3.5 2.5 5.1 3.7
3.6 4.0 2.9 4.8 4.6
2.5 3.7 2.8 1.6 4.0
4.5 2.7 5.1 3.6 5.6
3.5 4.0 1.8 6.1 4.9
3.7 4.4 5.6 4.7 4.2
4.1 3.7 2.2 3.9 3.1
4.9 4.2 3.4 3.9 3.9
26
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
a. Describa la forma de la distribución de datos. ¿Nota algunos resultados atípicos?
a. Construya un histograma de frecuencia relativa para los datos.
b. Use la gráfica de tallo y hoja para hallar la observación mínima.
c. ¿Qué proporción de las mediciones es menor que 2?
c. Encuentre la octava y la novena observaciones más grandes.
d. Si una medición se selecciona al azar de entre las 20 mediciones mostradas, ¿cuál es la probabilidad de que sea un 2?
1.12 Consulte el ejercicio 1.16. Construya un histograma de frecuencia relativa para los datos. a. ¿Aproximadamente cuántos intervalos de clase debe usar? b. Supongamos que usted decide usar clases que empiezan en 1.6 con ancho de clase de .5 (es decir, 1.6 a <2.1, 2.1 a <2.6). Construya el histograma de frecuencia relativa para los datos. 1.13 Considere este conjunto de datos:
3.2 4.8 3.7 4.0
3.5 3.6 4.3 3.6
3.9 3.3 4.4 3.5
3.5 4.3 3.4 3.9
3.9 4.2 4.2 4.0
1.15 Consulte el Ejercicio 1.19. a. Trace una gráfica de puntos para describir los datos. b. ¿Cómo definiría usted el tallo y la hoja para este conjunto de datos?
d. Compare la gráfica de puntos, la gráfica de tallo y hoja y el histograma de frecuencia relativa (Ejercicio 1.19). ¿Reflejan todos más o menos la misma información?
a. Construya una gráfica de tallo y hoja; use el dígito inicial como tallo. b. Construya una gráfica de tallo y hoja; use dos veces cada uno de los dígitos iniciales. ¿Esta técnica mejora la presentación de los datos? Explique. 1.14 Una variable discreta puede tomar solo los valores de 0, 1 o 2. Un conjunto de 20 mediciones sobre esta variable se muestra aquí: 1 2 2 0
e. Describa la forma de la distribución. ¿Ve algunos resultados atípicos?
c. Trace la gráfica de tallo y hoja usando su decisión de la parte b.
EX0113
4.5 4.3 3.9 4.4
b. ¿Qué proporción de las mediciones es mayor que 1?
2 1 2 1
1 1 1 2
0 0 1 1
1.8
1.16 Navegar en un laberinto Un psicólogo experimental midió el tiempo que tardó una rata para navegar con éxito por un laberinto en cada uno de cinco días. Los resultados se muestran en la tabla siguiente. Genere una gráfica de líneas para describir los datos. ¿Piensa usted que hay algún aprendizaje? Día
1
2
3
4
5
Tiempo (segundos)
45
43
46
32
25
2 0 0 1
CONSTRUCCIÓN DE FRECUENCIAS (REGLA DE STURGES) Otro método para agrupar datos es la denominada regla de Sturges, la cual consiste en estimar el número de clases por medio del uso de la fórmula
K = 1 + 3.322 log(n), donde K representa el número de clases y n representa el número de datos a agrupar. EJEMPLO
1.16
Considere los datos de la Tabla 1.12, donde se registran los pesos de 30 bebés al nacer (página 20). En este caso, n = 30. Para determinar el número de intervalos de clase utilizando la regla de Sturges, tenemos que: K = = = = =
1 + 3.322 log(n) 1 + 3.322 log(30) 1 + 3.322 (1.47712) 1 + 4.90699 5.90699
Entonces, redondeando: K = 6 Ahora, determine la amplitud del intervalo de clases: Amplitud del intervalo de clase = La amplitud de la clase será de 0.6
rango número de clases
=
9.4 5.6 6
=
3.8 6
= 0.63
CONSTRUCCIÓN DE FRECUENCIAS (REGLA DE STURGES)
27
Se construyen los intervalos de clase reales: TABLA 1.17
EJEMPLO
1.17
Clase
Intervalos de clase reales
1 2 3 4 5 6 7
5.55 6.15 6.15 6.75 6.75 7.35 7.35 7.95 7.95 8.55 8.55 9.15 9.15 9.75
Frecuencia absoluta 3 2 6 9 6 3 1
Ahora, considere los datos de la Tabla 1.14 (sobre el número de visitas a Starbucks). Como puede observar, en este caso n = 25. Para determinar el número de intervalos de clase utilizando la regla de Sturges, se tiene que K = = = = = =
1 + 3.322 log(n) 1 + 3.322 log(25) 1 + 3.322 (1.397940) 1 + 4.6439 1 + 4.644 5.644
Entonces, redondeando: K = 6 Determine la amplitud del intervalo de clases: Amplitud del intervalo de clase =
rango = número de clases
8 1 6
=
7 6
= 1.16
El ancho de la clase es de 1.2 Se construyen los intervalos de clase reales: TABLA 1.18
Clase
Intervalos de clase reales
Frecuencia absoluta
0.95 2.15 2.15 3.35 3.35 4.55 4.55 5.75 5.75 6.95 6.95 8.15
1 2 3 4 5 6
1 2 3 8 7 4
A continuación se presentan los histogramas de frecuencias correspondientes a cada ejemplo:
FIGURA 1.25
10 9
Histograma de frecuencias para el Ejemplo 1.16 Frecuencia
Frecuencia
8 7 6 5 4 3 2 1
0 5.55
6.15
6.75
7.35
7.95
Pesos al nacer al nacer de bebés Pesos
8.55
9.15
9.75
28
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
10
FIGURA 1.26
9
Histograma de frecuencias para el Ejemplo 1.17 Frecuencia Frecuencia
8 7 6 5 4 3 2 1
0 0.95
2.15
3.35
4.55
5.75
6.95
8.15
Visitas semana porsemana Visitaspor V
PARÁMETROS Y MEDICIONES ESTADÍSTICAS
1.9
Las gráficas ayudan a describir la forma básica de una distribución de datos. Sabemos que “una imagen vale por mil palabras”, pero hay limitaciones para usar gráficas. Supongamos que usted necesita presentar sus datos a un grupo de personas y que el foco del proyector de imágenes se quema o que usted necesita describir sus datos por teléfono; no hay modo de ver las gráficas. Necesita entonces hallar otra forma de llevar la imagen mental de los datos a su audiencia. Una segunda limitación es que las gráficas son un tanto imprecisas para usar en inferencia estadística. Por ejemplo, supongamos que desea usar un histograma muestral para hacer inferencias acerca de un histograma poblacional. ¿Cómo puede medir las similitudes y diferencias entre los dos histogramas en alguna forma concreta? Si son idénticas, usted podría decir que son las mismas, pero si son diferentes, es difícil describir la magnitud de las diferencias. Una forma de superar estos problemas es usar medidas numéricas, que se calculan para una muestra o una población de mediciones. Se usan los datos para calcular un conjunto de medidas que llevarán una buena imagen mental de la distribución de frecuencia. Estas mediciones se llaman parámetros cuando se asocian con la población, y estadísticas cuando se calculan a partir de mediciones muestrales. Definición Las mediciones descriptivas numéricas asociadas con una población de mediciones se llaman parámetros; las calculadas a partir de mediciones muestrales reciben el nombre de estadísticas.
Momento de práctica CAPÍTULO 1 1.17 Hamburguesas con queso Cree una gráfica de puntos para la cantidad de hamburguesas con queso consumidas por 10 estudiantes universitarios en una determinada semana. 4 3
5 3
4 4
2 2
1 7
a. ¿Cómo describiría la forma de la distribución? b. ¿Qué proporción de los estudiantes comió más de cuatro hamburguesas con queso esa semana? 1.18 Calificaciones de examen Las calificaciones en un examen de 100 puntos se registraron para 20 estudiantes:
EX0118
61 94
93 89
91 67
86 62
55 72
63 87
86 68
82 65
76 75
57 84
a. Use una gráfica apropiada para describir los datos.
b. Describa la forma y ubicación de las calificaciones. c. ¿Es poco común la forma de la distribución? ¿Considera alguna razón por la que la distribución de las calificaciones tendría esa forma? 1.19 Tiempos de supervivencia Altman y Bland informaron sobre los tiempos de supervivencia de los EX0119 pacientes con hepatitis activa; una mitad del grupo recibió tratamiento con prednisona y la otra no recibió tratamiento. Los datos que siguen se han adaptado de los datos de aquellos tratados con prednisona. Los tiempos de supervivencia se registraron al mes más próximo. 8 11 52 57 65
87 93 97 109 120
127 133 139 142 144
147 148 157 162 165
29
PARÁMETROS Y MEDICIONES ESTADÍSTICAS
a. Observe los datos. ¿Adivina la forma aproximada de la distribución de los datos? b. Construya un histograma de frecuencia relativa para los datos. ¿Cuál es la forma de la distribución? c. ¿Hay algún resultado atípico en el conjunto? De ser así, ¿cuáles tiempos de supervivencia son anormalmente cortos? 1.20 Una enfermedad recurrente El tiempo (en meses) entre el inicio de una enfermedad en particular y su recurrencia se registró para n = 50 pacientes:
EX0120
2.1 14.7 4.1 14.1 1.6
4.4 9.6 18.4 1.0 3.5
2.7 16.7 .2 2.4 11.4
32.3 7.4 6.1 2.4 18.0
9.9 8.2 13.5 18.0 26.7
9.0 19.2 7.4 8.7 3.7
2.0 6.9 .2 24.0 12.6
6.6 4.3 8.3 1.4 23.1
3.9 3.3 .3 8.2 5.6
1.6 1.2 1.3 5.8 .4
a. Construya un histograma de frecuencia relativa para los datos.
b. Elabore un histograma de frecuencia relativa para estos datos. Empiece la frontera inferior de la primera clase en 30 y use un ancho de clase de 5 meses. c. Compare las gráficas de las partes a y b. ¿Hay alguna diferencia importante que le haría elegir una como el mejor método para exhibir los datos? d. ¿Qué proporción de los niños tenía 35 meses (2 años, 11 meses) o más, pero menos de 45 meses (3 años, 9 meses) de edad cuando se inscribieron por primera vez en preescolar? e. Si un niño fuera seleccionado al azar de este grupo, ¿cuál es la probabilidad de que tuviera menos de 50 meses de edad (4 años, 2 meses) cuando se inscribió por primera vez en preescolar?
1.23 Religión organizada Las estadísticas de las religiones del mundo son aproximaciones muy vagas, EX0123 dado que muchas no dan seguimiento a sus miembros. Una estimación de estos números (en millones) se muestra en la tabla siguiente.
b. ¿Describiría usted la forma como aproximadamente simétrica, sesgada a la derecha o sesgada a la izquierda? c. Dé la fracción de tiempos de recurrencia menores o iguales a 10 meses. 1.21 La educación funciona La educación funciona, según una instantánea dada por el Bureau of Labor Statistics. La mediana de los ingresos anuales para seis niveles diferentes de educación se muestra en la tabla:
EX0121
Nivel de educación
Mediana de ingresos semanales ($)
Menos que diploma de bachillerato Graduado de bachillerato Algo de universidad, sin título Título técnico Título de licenciatura Título de maestría Título de especialidad Título de doctorado Mediana de ingresos semanales
454 626 699 761 1 025 1 257 1 529 1 532
b. Seleccione el método de la parte que usted piensa describe mejor los datos y cree la gráfica apropiada. c. ¿Cómo resumiría la información mostrada en la gráfica sobre los niveles educativos y salarios? 1.22 Preescolar A continuación, se proporciona la lista de las edades (en meses) de 50 niños que se inscribieron por primera vez en una escuela preescolar. 40 35 34 39 50
30 34 41 33 37
35 43 30 32 39
39 41 46 32 33
40 36 35 45 45
48 41 40 42 38
36 43 30 41 46
31 48 46 36 36
Judaismo Sijismo China tradicional Otra
14 23 394 61
a. Elabore una gráfica de pastel para describir el total de miembros en las religiones organizadas del mundo.
c. Ordene los grupos religiosos del número de miembros menor al mayor. Elabore una gráfica de Pareto para describir los datos. ¿Cuál de las tres es más eficaz?
a. ¿Qué métodos gráficos usaría usted para describir los datos?
38 47 32 55 42
Budismo 376 Cristianismo 2100 Hinduismo 900 Islamismo 1500 Indígenas primitivas y africanas tradicionales 400
Miembros (millones)
Religión
b. Construya una gráfica de barras para describir el total de miembros en las religiones organizadas del mundo.
Fuente: Bureau of Labor Statistics, Current Population Survey
EX0122
Miembros (millones)
Religión
36 40 37 50 31
a. Construya una gráfica de tallo y hoja para los datos.
1.24 ¿Qué tan larga es la fila? Para determinar el número de cajas de pago que en el futuro es necesario EX0124 construir, una cadena de supermercados desea obtener información del tiempo (en minutos) necesario para dar servicio a los clientes. Para hallar la distribución de tiempos de tal servicio se registró una muestra de tiempos de servicio a 60 clientes, los cuales se observan a continuación: 3.6 1.1 1.4 .6 1.1 1.6
1.9 1.8 .2 2.8 1.2 1.9
2.1 .3 1.3 2.5 .8 5.2
.3 1.1 3.1 1.1 1.0 .5
.8 .5 .4 .4 .9 1.8
.2 1.2 2.3 1.2 .7 .3
1.0 .6 1.8 .4 3.1 1.1
1.4 1.1 4.5 1.3 1.7 .6
1.8 .8 .9 .8 1.1 .7
1.6 1.7 .7 1.3 2.2 .6
a. Construya una gráfica de tallo y hoja para los datos. b. ¿Qué fracción de los tiempos de servicio son menores que o iguales a 1 minuto? c. ¿Cuál de las 60 mediciones es la más pequeña?
30
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
1.25 Tiempos de servicio, continúa Consulte el ejercicio 1.30. Construya un histograma de frecuencia relativa a los tiempos de servicio de supermercado. a. Describa la forma de la distribución. ¿Observa algunos resultados atípicos? b. Si se parte de que los resultados atípicos de este conjunto de datos son observaciones válidas, ¿cómo los explicaría a la administración de la cadena de supermercados? c. Compare el histograma de frecuencia relativa con la gráfica de tallo y hoja del ejercicio 1.30. ¿Las dos gráficas reflejan la misma información? 1.26 Contenido de calcio El contenido de calcio (Ca) de una sustancia mineral en polvo fue analizado 10 EX0126 veces, con las siguientes composiciones porcentuales registradas: .0271 .0271
.0282 .0281
.0279 .0269
.0281 .0275
b. Trace una gráfica de tallo y hoja para los datos. Use los números de centenas y millares como tallo. c. ¿Algunas de las mediciones son inconsistentes con las otras mediciones, lo que indicaría que el técnico pudo haber cometido un error en el análisis? 1.27 Presidentes de Estados Unidos La siguiente tabla enlista las edades que tenían al momento de fallecer 39 presidentes de Estados Unidos desde George Washington hasta Ronald Reagan:
Washington J. Adams Jefferson Madison Monroe J. Q. Adams Jackson Van Buren W. H. Harrison Tyler Polk Taylor Fillmore Pierce Buchanan Lincoln A. Johnson Grant Hayes Garfield
67 90 83 85 73 80 78 79 68 71 53 65 74 64 77 56 66 63 70 49
Arthur Cleveland B. Harrison McKinley T. Roosevelt Taft Wilson Harding Coolidge Hoover F. D. Roosevelt Truman Eisenhower Kennedy L. Johnson Nixon Ford Carter Reagan
EX0128
5.4 5.3 5.3
1.28 Cantidades de glóbulos rojos La cantidad de glóbulos rojos de una persona sana se midió en cada uno de 15 días. El número registrado se midió en 106 células por microlitro (mL). 5.2 5.4 4.9
5.0 5.2 5.4
5.2 5.1 5.2
5.5 5.3 5.2
a. Use una gráfica apropiada para describir los datos. b. Describa la forma y ubicación de las cantidades de glóbulos rojos. c. Si la cantidad de glóbulos rojos de la persona se mide hoy como 5.7 106/mL, ¿usted consideraría que esto es poco común? ¿Qué conclusiones podría obtener?
.0268 .0276
a. Trace una gráfica de puntos para describir los datos. (sugerencia: la escala del eje horizontal debe ir de .0260 a .0290).
EX0127
c. Los cinco presidentes más jóvenes al momento de su fallecimiento aparecen en la “cola” inferior de la distribución. Tres de los cinco más jóvenes tienen una característica común. Identifique los cinco presidentes más jóvenes a su fallecimiento. ¿Qué característica común explica estas mediciones?
56 71 67 58 60 72 67 57 60 90 63 88 78 46 64 81 93 93 93
1.29 Campeones de bateo Los directivos del beisbol de ligas mayores han coronado a un campeón de EX0129 bateo en la Liga Nacional cada año desde 1876. En la tabla siguiente aparece una muestra de promedios ganadores de bateo: Año
Nombre
2000 1915 1917 1934 1911 1898 1924 1963 1992 1954 1975 1958 1942 1948 1971 1996 1961 1968 1885 2009
Todd Helton Larry Doyle Edd Roush Paul Waner Honus Wagner Willie Keeler Roger Hornsby Tommy Davis Gary Sheffield Willie Mays Bill Madlock Richie Ashburn Ernie Lombardi Stan Musial Joe Torre Tony Gwynn Roberto Clemente Pete Rose Roger Connor Hanley Ramirez
.372 .320 .341 .362 .334 .379 .424 .326 .330 .345 .354 .350 .330 .376 .363 .353 .351 .335 .371 .342
a. Construya un histograma de frecuencia relativa para describir los promedios de bateo para estos 20 campeones. b. Si usted eligiera al azar uno de los 20 nombres, ¿qué probabilidad hay de que elija un jugador cuyo promedio fuera arriba de .400 para su año de campeonato?
a. Antes de graficar los datos, trate de visualizar la distribución de las edades al fallecimiento de los presidentes. ¿Qué forma piensa usted que tendrá? b. Construya una gráfica de tallo y hoja para los datos. Describa la forma. ¿Le sorprende?
Promedio
EX0130
1.30 Mejores 20 películas La tabla siguiente presenta las ventas brutas de boletos en fin de semana para las mejores 20 películas para el fin de semana del 25 de junio de 2010.
ACTIVIDAD SUMATIVA
Venta bruta fin de semana ($ millones)
Película 1.Toy Story 3 2. Son como niños 3. Encuentro explosivo 4. Karate Kid 5. Los magníficos 6. Misión rockstar 7. Shrek para siempre 8. Príncipe de Persia 9. Killers 10. Jonah Hex 11. Iron Man 2 12. Sexo en la ciudad 2 13. Marmaduke 14. Robin Hood 15. Un hombre solitario 16. Cómo entrenar a tu dragón 17. Invierno profundo 18. Cartas a Julieta 19. Joan Rivers: A Piece of Work 20. Cyrus
59.3 40.5 20.1 15.5 6.2 3.1 3.1 2.8 1.9 1.6 1.4 1.2 1.0 0.6 0.5 0.5 0.4 0.4 0.4 0.3
31
a. Trace una gráfica de tallo y hoja para los datos. Describa la forma de la distribución. ¿Hay algunos resultados atípicos? b. Construya una gráfica de puntos para los datos. ¿Cuál de las dos gráficas es más informativa? Explique.
Fuente: www.radiofree.com/mov-tops.shtml
ACTIVIDAD SUMATIVA En la siguiente actividad usted hará un estudio con datos generados por el Instituto Nacional de Estadística y Geografía de México (INEGI) y otros obtenidos por una investigación propia (encuesta) sobre la eficiencia terminal y el número de años de estudio de los mexicanos. Para esta actividad deberá formar un equipo de tres personas. Usted está a poco de terminar la educación media superior, esto es un beneficio que no todos los mexicanos tienen; según el INEGI, el porcentaje de eficiencia terminal de la educación media superior en México no supera 70%. Para obtener estos datos, ¿el INEGI habrá utilizado una muestra o una población?
Investigue en la página del INEGI, en la sección de Datos, la eficiencia terminal por entidad federativa según nivel educativo, obtenga los datos de los dos últimos ciclos escolares de los 32 estados del nivel educativo “Medio Superior”, genere con ellos una tabla donde muestre el porcentaje de eficiencia terminal por estado, como se muestra a continuación. Estado
Eficiencia terminal del nivel “Medio superior” ciclo ----/----
Aguascalientes . . . Zacatecas • Genere una gráfica significativa que refleje la comparación de los 32 estados. • Realice la gráfica de pareto para los datos de los 32 estados. • ¿Las variables son continuas o discretas?
32
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
• ¿Qué conclusión general puede obtener sobre los 32 estados? • ¿Qué puede concluir sobre el estado en que reside comparado con los demás estados de la República Mexicana? • ¿Qué razones cree que influyan en el grado de eficiencia terminal en su estado? • ¿Qué medidas propone para mejorar la eficiencia terminal a nivel medio superior en su estado?
Investigue el número de años que se espera que una persona de entre cinco y 29 años de edad esté inscrita en algún nivel educativo en los 32 estados de la República Mexicana del año más reciente, esto lo encontrará en los datos del INEGI con el nombre de “Esperanza de escolaridad por Entidad federativa y Ciclo escolar” •
Realice una tabla con los datos obtenidos y por medio de la Regla de Sturges complete la siguiente tabla: n: K: Rango: Amplitud del intervalo:
• Genere la tabla de frecuencia correspondiente según el formato que se muestra a continuación: Clase
Intervalos de clase
Frecuencia absoluta
Frecuencia relativa
Frecuencia relativa acumulada
• Realice el histograma de frecuencia relativa Investigue el número de años que se espera que una persona de entre cinco y 29 años de edad esté inscrita en algún nivel educativo en su estado, esto lo encontrará en los datos del INEGI con el nombre de “Esperanza de escolaridad por Entidad federativa y Ciclo escolar”. Escriba los valores de los últimos tres años: 1. 2. 3. Por medio de una investigación de campo, recolecte el número de años que han estudiado al menos 50 personas adultas (mayores a 29 años) en su comunidad, recuerde que los años contarán a partir de la educación primaria. Escriba los datos en una tabla como la siguiente: Nombre
Número de años estudiados
Con los datos obtenidos, realice la tabla de frecuencias para poder realizar el histograma de frecuencias relativas. • ¿Qué semejanzas o diferencias muestran las gráficas de su estudio comparadas con la de los 32 estados?
33
RÚBRICA PARA EVALUAR PROYECTO ESTADÍSTICO
Rúbrica para evaluar proyecto estadístico Nombre de la materia: Probabilidad y estadística Equipo:
Grado y grupo:
Profesor:
Fecha de aplicación:
Tema: Estudio sobre la eficiencia terminal a nivel medio superior y años de estudio.
Productos que se evaluarán: • Tablas de frecuencia • Gráficas
Profesor(a), escriba en la tabla que se encuentra a continuación los nombres de los integrantes del equipo y califique de acuerdo con la característica que describa mejor el desempeño de cada uno de los alumnos en la columna coincidente con el número. Asegúrese de contestar todas las categorías. Núm.
Nombre
1 2 3
Categoría
Excelente
Bueno
Incipiente
Deficiente
3 puntos
2 puntos
1 punto
0 puntos
Obtención de datos
Los datos fueron obtenidos correctament e de la fuente, y fue citada correctamente
Los datos fueron obtenidos correctamente de la fuente pero no fue correctamente citada
Los datos fueron obtenidos correctamente de la fuente pero no citada
Los datos no correpondena los de la fuente solicitada
Gráficas de eficiencia terminal
Las dos gráficas realizadas son correctas y se muestran claras
Las dos gráficas realizadas son correctas pero no se muestran claras
Solo una de las dos gráficas es correcta o ambas son correctas pero no se muestra alguna de ellas clara
Las dos gráficas realizadas son incorrectas y no se muestran claras
Interpretación de datos de eficiencia terminal
Todas las preguntas están contestadas correctamente y justificadas según los datos obtenidos
Tres o cuatro preguntas están contestadas correctamente y justificadas según los datos obtenidos
Una o dos preguntas están contestadas correctamente y justificadas según los datos obtenidos
Ninguna de las preguntas están contestadas correctamente ni justificadas según los datos obtenidos
Participantes 1
2
3
34
CAPÍTULO 1
DISTRIBUCIÓN DE FRECUENCIA
Excelente
Bueno
Incipiente
Deficiente
3 puntos
2 puntos
1 punto
0 puntos
Regla de Sturges
La tabla de datos está calculada correctamente y se presentan los cálculos
La tabla de datos está calculada correctos pero no se presentan los cálculos
La tabla muestra al menos dos datos correctamente y se presentan los cálculos
La tabla muestra menos de dos datos correctos
Tabla de frecuencia relativa e histograma de los datos del INEGI
La tabla de frecuencia y el histograma están realizados correctamente y se muestran de forma clara
La tabla de frecuencia y el histograma están realizados correctamente pero no se muestra de forma clara la información
La tabla de frecuencia o el histograma están realizados correctamente y se muestran de forma clara
La tabla de frecuencia y el histograma están realizados incorrectamente
Tabla de frecuencia relativa e histograma de los datos de la investigación
La tabla de frecuencia y el histograma están realizados correctamente y se muestran de forma clara
La tabla de frecuencia y el histograma están realizados correctamente pero no se muestra de forma clara la información
La tabla de frecuencia o el histograma están realizados correctamente y se muestran de forma clara
La tabla de frecuencia y el histograma están realizados incorrectamente
Interpretación de datos de la investigación
La conclusión es acorde a los datos obtenidos por las dos fuentes y se demuestra la inferencia
La conclusión es medianamen te acorde a los datos obtenidos por las dos fuentes y se demuestra la inferencia
La conclusión es pobre pero acorde a los datos obtenidos por las dos fuentes y se demuestra la inferencia
La conclusión no es acorde a los datos obtenidos por las dos fuentes
Categoría
Participantes 1
2
3
35
2
Medidas de tendencia central
© Hyejin Kang/stock.adobe.com
Propósito
Competencia a desarrollar
Que el alumno demuestre generalizaciones de comportamientos, así como sesgos en diferentes poblaciones objetivo de cualquier ámbito presente en su entorno por medio del uso creativo de las medidas de tendencia central.
Explica o interpreta los resultados obtenidos mediante procedimientos matemáticos y lo contrasta con modelos establecidos o situaciones reales.
Objetos de aprendizaje Aprendizajes esperados • Identifica la diferencia entre la media aritmética, geométrica, ponderada y armónica. • Calcula claramente la media, moda y mediana.
Medidas de tendencia central Media aritmética Media geométrica Media ponderada Media armónica Mediana Moda Comparaciones entre parámetros
35
CAPÍTULO 2
MEDIDAS DE TENDENCIA CENTRAL
Evaluación diagnóstica 1. ¿Cuál de las siguientes es una gráfica de tallo y hoja?
10
20.0
9
85 y mayores (Millones)
36
8 7 6 5 4 3
17.5 15.0 12.5 10.0
2
7.5 5.0
1
2020
2030
0
2040 Año
5.55
6.15
6.75
7.35
7.95
8.55
9.15
9.75
Pesos al nacer
D 3.0%
A 9%
C 23.3%
B 65.0%
2050
154 156 158 160 162 164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196 198
| | | | | | | | | | | | | | | | | | | | | | |
9 00 666 11 66666 222222222 777777777 333333333333 8888888888 333333333333333 999999999999 44444 0000000 55 0000 6 1
2. ¿Cómo se calcula la frecuencia relativa?
3. ¿Cuánto da, en todas las ocasiones, la suma de las frecuencias relativas de un conjunto de datos?
4. ¿Cuál es la diferencia entre una muestra y una población?
5. ¿Qué es medir?
6. ¿Cuáles son las medidas de tendencia central?
MEDIA
37
Definición Las mediciones descriptivas numéricas asociadas con una población de mediciones se llaman parámetros; las calculadas a partir de mediciones muestrales reciben el nombre de mediciones estadísticas.
2.1
MEDIA Hasta este punto ya ha estudiado la función que tienen las gráficas de puntos, las gráficas de tallo y hoja y los histogramas, para describir la distribución de un conjunto de mediciones en una variable cuantitativa x. El eje horizontal presenta los valores de x, y los datos están “distribuidos” a lo largo de esta recta horizontal. Una de las primeras mediciones numéricas importantes es una medida de centro, es decir, una medida a lo largo del eje horizontal que localiza el centro de la distribución. Los datos de peso al nacer presentados en la Tabla 1.13 variaban de un punto bajo de 5.6 a uno alto de 9.4, con el centro del histograma situado en la cercanía de 7.5 (véase la Figura 2.1). Consideremos algunas reglas para localizar el centro de una distribución de mediciones.
FIGURA 2.1 8/30 7/30 Frecuencia relativa
Centro de los datos de peso al nacer.
6/30 5/30 4/30 3/30 2/30 1/30 0 5.6
6.1
6.6
7.1
7.6 8.1 Centro Peso al nacer
8.6
9.1
9.6
El promedio aritmético de un conjunto de mediciones es una medida de centro muy común y útil. Es frecuente que esta medida se conozca como media aritmética, o simplemente media, de un conjunto de mediciones. Para distinguir entre la media para la muestra y la media para la población, usamos el símbolo x (x barra) para una media muestral y el símbolo m (la letra griega mu minúscula) para la media de una población. Media aritmética Definición La media aritmética o promedio de un conjunto de n mediciones es igual a la suma de las mediciones dividida entre n. Como es frecuente que las fórmulas estadísticas comprendan la suma de números, usamos un símbolo para indicar el proceso de sumar. Suponga que hay n mediciones en la variable x y que las llamamos x1, x2, . . . , xn. Para sumar las n mediciones, utilizamos esta notación abreviada: n i 1
xi que significa x1
x2
x3
xn
La letra griega mayúscula sigma (S) implica sumar los términos que aparezcan a su derecha, empezando con el número debajo de la sigma (i 1) y terminando con el número arriba (i n). No obstante, como las sumas típicas en cálculos estadísticos se hacen casi siempre sobre el conjunto total de las n mediciones, se puede usar una notación más sencilla:
Sxi que significa “la suma de todas las mediciones de x”. Utilizando esta notación, escribimos la fórmula para la media muestral:
NOTACIÓN Media muestral:
x
Media poblacional: m
Sxi n
38
CAPÍTULO 2
EJEMPLO
2.1
MEDIDAS DE TENDENCIA CENTRAL
Trace una gráfica de puntos para las n 5 mediciones 2, 9, 11, 5, 6. Encuentre la media muestral y compare su valor con lo que usted pudiera considerar el “centro” de estas observaciones en la gráfica de puntos. Solución La gráfica de puntos de la Figura 2.2 parece estar centrada entre 6 y 8. Para hallar la media muestral, calcule:
x
Sxi n
2
9
11 5
5
6
6.6
FIGURA 2.2
Gráfica de puntos para el Ejemplo 2.1. 2
4
6 Mediciones
8
10
6.6 es el punto de equilibrio o fulcro que se muestra en la gráfica de puntos. Este La estadística x aparece para marcar el centro de los datos.
Recuerde que las muestras son mediciones tomadas de una población más grande que, en general, es desconocida. Un uso importante de la media muestral x es como un estimador de la media poblacional desconocida m. Los datos de peso al nacer en la Tabla 1.13 son una muestra de una población más grande de pesos al nacer y su distribución se muestra en la Figura 2.1. La media de los 30 pesos al nacer es:
MI CONSEJO
Media punto de equilibrio o fulcro
x
Σ xi 30
22 7 .2 30
7.57
ilustrada en la Figura 2.1; marca el punto de equilibrio de la distribución. La media de toda la población de pesos de recién nacidos es desconocida, pero si usted tuviera que calcular su valor, su mejor estimación sería 7.57. Aun cuando la media muestral x cambia de una muestra a otra, la media poblacional m sigue igual. Media geométrica Definición La media geométrica G de un conjunto de n números positivos x1, x2, ..., xn es la raíz n-ésima del producto de esos números: G " n x1 x 2 x3 $ x n
¿Cuándo es apropiado usar la media geométrica? La media aritmética es relevante cuando varias cantidades se suman para producir un total. La media aritmética responde a la pregunta: Si todas las cantidades fueran iguales, ¿cuál debe ser el valor de la media para obtener el mismo total? De forma análoga, la media geométrica es relevante en los casos en que varias cantidades se multiplican para producir un producto. La media geométrica responde a la pregunta: Si todas las cantidades fueran iguales, ¿cuál debe ser el valor de la media para obtener el mismo producto? La media geométrica se usa principalmente para promediar razones, cambios porcentuales en una serie de números positivos, tasas de variación e índices económicos. Tiene amplia aplicación en economía y negocios porque en estas disciplinas frecuentemente se está interesado en establecer el cambio porcentual en variables económicas como, por ejemplo: ventas, producción, costos, dividendos. EJEMPLO
2.2
Calcule la media geométrica de 8, 27 y 64 3
8 × 27 × 64 = 24
La media geométrica de los tres números es 24.
Probabilidad y estadística para bachillerato es una obra que presenta los principales conceptos de la materia con un enfoque en la solución de problemas y en el análisis de casos para favorecer un aprendizaje amplio y duradero en el alumno. De manera integral, esta obra destaca la importancia de interpretar y dar solución a los problemas de aplicación permitiendo generar así un pensamiento lógico y práctico para la interpretación de resultados con base en la probabilidad. Los temas desarrollados en la obra son: •
Distribución de frecuencias
•
Medidas de tendencia central
•
Medidas de variabilidad
•
Análisis combinatorio
•
Introducción a la probabilidad
•
Condicionalidad e independencia
•
Variables aleatorias y distribuciones de probabilidad
•
Distribución binomial
•
Distribución normal y datos bivariados
Los capítulos están compuestos por una evaluación diagnóstica, una sección de consejos, momentos de práctica, actividades sumativas y rúbricas para la evaluación de los proyectos estadísticos. Todos estos apoyos ofrecen la oportunidad de aplicar las técnicas anteriormente mencionadas, de manera que el alumno logre comprender la utilidad de la probabilidad y la estadística dentro de su contexto.
Visite nuestro sitio en http://latinoamerica.cengage.com