Estadística
e l e m e n t a l 11a. edición
1VOUZVU 2\I`
ii
Prefacio
Robert Johnson Monroe Communiy College
Patricia Kuby Monroe Communiy College
Traducción Víctor Campos Olguín Traductor profesional
Revisión Técnica Dra. Ana Elizabeth García Hernández Universidad La Salle, Morelia
$XVWUDOLD ä %UDVLO ä &RUHD ä (VSD³D ä (VWDGRV 8QLGRV ä -DSµQ ä 0«[LFR ä 5HLQR 8QLGR ä 6LQJDSXU
iii
iv
Prefacio
EstadĂstica elemental, D HGLFLÂľQ 5REHUW -RKQVRQ \ 3DWULFLD .XE\ Presidente de Cengage Learning LatinoamĂŠrica: )HUQDQGR 9DOHQ]XHOD 0LJR\D Director Editorial, de ProducciĂłn y de Plataformas Digitales para LatinoamĂŠrica: 5LFDUGR + 5RGUÂŻJXH] Gerente de Procesos para LatinoamĂŠrica: &ODXGLD ,VODV /LFRQD Gerente de Manufactura para LatinoamĂŠrica: 5DÂźO ' =HQGHMDV (VSHMHO Gerente Editorial de Contenidos en EspaĂąol: 3LODU +HUQÂŁQGH] 6DQWDPDULQD Coordinador de Manufactura: 5DIDHO 3ÂŤUH] *RQ]ÂŁOH] Editores: 6HUJLR 5 &HUYDQWHV *RQ]ÂŁOH] $EULO 9HJD 2UR]FR DiseĂąo de portada: 6WXGLR Imagen de portada: 6KXWWHUVWRFN ComposiciĂłn tipogrĂĄďŹ ca: 3DWULFLD 'HOJDGR 7UXMLOOR +XPEHUWR 1Ÿ³H] 5DPRV
Impreso en MĂŠxico 1 2 3 4 5 6 7 15 14 13 12
k ' 5 SRU &HQJDJH /HDUQLQJ (GLWRUHV 6 $ GH & 9 XQD &RPSD³¯D GH &HQJDJH /HDUQLQJ ,QF &RUSRUDWLYR 6DQWD )H $Y 6DQWD )H QŸP SLVR &RO &UX] 0DQFD 6DQWD )H & 3 0[LFR ' ) &HQJDJH /HDUQLQJŽ HV XQD PDUFD UHJLVWUDGD XVDGD EDMR SHUPLVR
'(5(&+26 5(6(59$'26 1LQJXQD SDUWH GH HVWH WUDEDMR DPSDUDGR SRU OD /H\ )HGHUDO GHO 'HUHFKR GH $XWRU SRGU£ VHU UHSURGXFLGD WUDQVPLWLGD DOPDFHQDGD R XWLOL]DGD HQ FXDOTXLHU IRUPD R SRU FXDOTXLHU PHGLR \D VHD JU£ĕ FR HOHFWU¾QLFR R PHF£QLFR LQFOX\HQGR SHUR VLQ OLPLWDUVH D OR VLJXLHQWH IRWRFRSLDGR UHSURGXFFL¾Q HVFDQHR GLJLWDOL]DFL¾Q JUDEDFL¾Q HQ DXGLR GLVWULEXFL¾Q HQ ,QWHUQHW GLVWULEXFL¾Q HQ UHGHV GH LQIRUPDFL¾Q R DOPDFHQDPLHQWR \ UHFRSLODFL¾Q HQ VLVWHPDV GH LQIRUPDFL¾Q D H[FHSFL¾Q GH OR SHUPLWLGR HQ HO &DS¯WXOR ,,, $UW¯FXOR GH OD /H\ )HGHUDO GHO 'HUHFKR GH $XWRU VLQ HO FRQVHQWLPLHQWR SRU HVFULWR GH OD (GLWRULDO 7UDGXFLGR GHO OLEUR (OHPHQWDU\ 6WDWLVWLFV H 5REHUW -RKQVRQ DQG 3DWULFLD .XE\ 3XEOLFDGR HQ LQJOV SRU %URRNV &ROH XQD FRPSD³¯D GH &HQJDJH /HDUQLQJ k ,6%1 'DWRV SDUD FDWDORJDFL¾Q ELEOLRJU£ĕ FD -RKQVRQ 5REHUW \ 3DWULFLD .XE\ (VWDG¯VWLFD HOHPHQWDO D HGLFL¾Q ,6%1 9LVLWH QXHVWUR VLWLR HQ KWWS ODWLQRDPHULFD FHQJDJH FRP
Contenido detallado PARTE 1
Estadística descriptiva
Capítulo 1
Estadística
xx
¿Qué es estadística? Mensurabilidad y variabilidad Recolección de datos Estadística y tecnología
xx 14 15 24
Análisis descriptivo y presentación de datos de una variable
32
1.1 1.2 1.3 1.4
Capítulo 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7
Capítulo 3 3.1 3.2 3.3
Gráficas, diagramas de Pareto y diagramas de tallo y hojas Distribuciones de frecuencia e histogramas Medidas de tendencia central Medidas de dispersión Medidas de posición Interpretación y comprensión de la desviación estándar El arte del engaño estadístico
32 47 63 74 82 95 102
Análisis descriptivo y presentación de datos bivariados
120
Datos bivariados Correlación lineal Regresión lineal
120 136 146
PARTE 2
Probabilidad
Capítulo 4
Probabilidad
172
Probabilidad de eventos Probabilidad condicional de eventos Reglas de probabilidad Eventos mutuamente excluyentes Eventos independientes Mutuamente excluyentes e independientes, ¿están relacionados?
172 190 195 202 208 214
Distribuciones de probabilidad (variables discretas)
230
Variables aleatorias Distribuciones de probabilidad de una variable aleatoria discreta Distribución de probabilidad binomial
230 233 243
Distribuciones de probabilidad normal
268
Distribución de probabilidad normal La distribución normal estándar Aplicaciones de las distribuciones normales Notación Aproximación normal de la binomial
268 271 279 292 299
4.1 4.2 4.3 4.4 4.5 4.6
Capítulo 5 5.1 5.2 5.3
Capítulo 6 6.1 6.2 6.3 6.4 6.5
vii
viii
Contenido Prefacio detallado
Capítulo 7 7.1 7.2 7.3
Variabilidad muestral
312
Distribuciones muestrales La distribución muestral de medias muestrales Aplicación de la distribución muestral de medias muestrales
312 319 327
Parte 3
Inferencia estadística
Capítulo 8
Introducción a la inferencia estadística
340
La naturaleza de la estimación Estimación de media ( conocida) La naturaleza de la prueba de hipótesis Prueba de hipótesis de media ( conocida): Un método de valor de probabilidad Prueba de hipótesis de media ( conocida): Un método clásico (opcional)
340 347 361
387
Inferencias que involucran una población
412
Inferencias en torno a la media ( desconocida) Inferencias en torno a la probabilidad binomial de éxito Inferencias en torno a la varianza y la desviación estándar
412 434 453
Inferencias que involucran dos poblaciones
478
Muestras dependientes e independientes Inferencias concernientes a la diferencia de medias usando dos muestras dependientes Inferencias concernientes a la diferencia entre medias usando dos muestras independientes Inferencias concernientes a la diferencia entre proporciones usando dos muestras independientes Inferencias concernientes a la razón de varianzas usando dos muestras independientes
478
8.1 8.2 8.3 8.4 8.5
Capítulo 9 9.1 9.2 9.3
Capítulo 10 10.1 10.2 10.3 10.4 10.5
370
482 495 511 521
PARTE 4
Más inferencia estadística
Capítulo 11
Aplicaciones de ji cuadrada
544
El estadístico ji cuadrada Inferencias concernientes a experimentos multinomiales Inferencias concernientes a tablas de contingencia
544 547 558
Análisis de varianza
578
Introducción a la técnica de análisis de varianza La lógica detrás de ANOVA Aplicaciones de la ANOVA de un solo factor
578 586 590
Análisis de correlación y de regresión lineales
612
Análisis de correlación lineal Inferencias en torno al coeficiente de correlación lineal Análisis de regresión lineal Inferencias concernientes a la pendiente de la recta de regresión
612 619 627
11.1 11.2 11.3
Capítulo 12 12.1 12.2 12.3
Capítulo 13 13.1 13.2 13.3 13.4
634
Prefacio detallado Contenido
13.5 13.6
Capítulo 14 14.1 14.2 14.3 14.4 14.5
ix
Intervalos de confianza para regresión Comprender la relación entre correlación y regresión
643 653
Elementos de estadística no paramétrica
662
Estadística no paramétrica La prueba del signo La prueba U de Mann-Whitney La prueba de rachas Correlación por rangos
662 664 676 686 694
Apéndice A: Conceptos introductorios y revisión de lecciones
710
Apéndice B: Tablas
711
Respuestas a ejercicios seleccionados
735
Respuestas a exámenes de práctica de los capítulos
779
Índice analítico
787
Índice de aplicaciones
797
Tablas
805
Índice de instrucciones para computadora y calculadora
805
Tarjeta de fórmulas
806
Valores críticos de la distribución t de Student
808
Áreas acumuladas de la distribución normal estándar
809
2 32
CapĂtulo 00
CapĂtulo tĂtulo
AnĂĄlisis descriptivo y presentaciĂłn de datos de una variable PRESENTACIĂ“N GRĂ FICA DE DATOS 2.1 *UiÂżFDV GLDJUDPDV GH 3DUHWR \ GLDJUDPDV GH WDOOR \ KRMDV Una imagen vale mĂĄs que mil palabras.
2.2 'LVWULEXFLRQHV GH IUHFXHQFLD H KLVWRJUDPDV 0pWRGRV JUiÀFRV para conjuntos de datos mås grandes.
ESTAD�STICA DESCRIPTIVA NUMÉRICA 2.3 0HGLGDV GH WHQGHQFLD FHQWUDO Media, mediana, moda y medio rango son valores promedio.
2.4 0HGLGDV GH GLVSHUVLyQ
CĂłmo medir la FDQWLGDG GH GLVSHUVLyQ en un conjunto de datos.
2.5 0HGLGDV GH SRVLFLyQ
CĂłmo FRPSDUDU un valor de datos con el conjunto de datos. c 2010 Alys Tomlinson/Jupiterimages
c 2010 Chris Whitehead/Jupiterimages
2.6 ,QWHUSUHWDFLyQ \ FRPSUHQVLyQ GH OD GHVYLDFLyQ HVWiQGDU La longitud de una vara de medir estandarizada.
2.7 (O DUWH GHO HQJDxR HVWDGtVWLFR
*UiÀFDV ´WUXFXOHQWDV¾ e LQIRUPDFLyQ LQVXÀFLHQWH confunden.
2.1 GrĂĄďŹ cas, diagramas de Pareto y diagramas de tallo y hojas Estudiantes: AquĂ los observan &RQVLGHUD WRGD OD LQIRUPDFLyQ HQ OD JUiĂ€FD HVSHFtĂ€FDPHQWH OODPDGD JUiĂ€FD GH SDVWHO R JUiĂ€FD GH FtUFXOR ¢7~ GtD VH GLYLGH HQ ODV FDWHJRUtDV TXH VH PXHVWUDQ HQ OD VLJXLHQWH SiJLQD" ¢2 WLHQHV XQD R GRV FDWHJRUtDV DGLFLRQDOHV" ¢7DO YH] PHQRV FDWHJRUtDV" $KRUD FRQVLGHUD HO WLHPSR RWRUJDGR Uso de tiempo en un dĂa promedio para estudiantes universitarios de tiempo completo Ocio y deportes (3.9 horas)
Trabajo y actividades relacionadas (3.0 horas)
Actividades educativas (3.2 horas) Dormir (8.3 horas)
Comer y beber (1.0 horas) Aseo (0.8 horas)
Viajar (1.5 horas) Otros (2.3 horas) Total = 24.0 horas NOTA: Los datos incluyen individuos, con edades de 15 a 49 aĂąos, inscritos de tiempo completo en una universidad. Los datos incluyen ďŹ nes de semana no festivos y son promedios para 2003-2007. Fuente: Bureau of Labor Statistics
SecciĂłn 2.1
PTI ATUS es un sondeo continuo de la administraciĂłn federal acerca del uso del tiempo en Estados Unidos, patrocinado por la Bureau of Labor Statistics y realizada por la U.S. Census Bureau
PTI No hay una respuesta correcta exclusiva cuando construyes una presentaciĂłn grĂĄďŹ ca. El juicio del analista y las circunstancias que rodean el problema tienen importantes papeles en el desarrollo de la grĂĄďŹ ca.
GrĂĄficas, diagramas de Pareto y diagramas de tallo y hojas
33
SDUD FDGD DFWLYLGDG HQ SURPHGLR ¢FyPR VH FRPSDUD OD FDQWLGDG GH WLHPSR TXH W~ HPSOHDV" 4XL]i W~ WLHQHV FDWHJRUtDV FRPSOHWDPHQWH GLIHUHQWHV ¢'HVHDV WHQHU ODV KRUDV GH VXHxR HQ SURPHGLR" £/RV DXWRUHV Vt ¢3XHGHV LPDJLQDU WRGD HVWD LQIRUPDFLyQ HVFULWD HQ RUDFLRQHV" /DV SUHVHQWDFLRQHV JUiÀFDV YHUGDGHUDPHQWH SXHGHQ YDOHU PLO SDODEUDV (VWD JUiÀFD GH SDVWHO UHVXPH OD LQIRUPDFLyQ ´8VR GHO WLHPSR¾ GH OD (QFXHVWD GH 8VR GH 7LHPSR (VWDGRXQLGHQVH $786 SRU VXV VLJODV HQ LQJOpV GH PiV GH HVWDGRXQLGHQVHV 'DGR TXH VH WUDWD GH XQ VRQGHR WUDQVYHUVDO ItMDWH TXH HVWD JUiÀFD VyOR LQFOX\H D ORV HVWXGLDQWHV XQLYHUVLWDULRV GH WLHPSR FRPSOHWR TXH SDUWLFLSDURQ $KRUD TXH FRQRFHV OD IXHQWH \ YHV HO WDPDxR JOREDO GH OD PXHVWUD SXHGHV VHQWLU TXH GLFKRV GDWRV UHSUHVHQWDQ XQD LPDJHQ UHODWLYDPHQWH SUHFLVD GH XQ GtD GH XQ HVWXGLDQWH XQLYHUVLWDULR 7DO YH] TXLHUDV REVHUYDU PiV GH FHUFD DOJXQD GH ODV FDWHJRUtDV ¢7LHQHV SUHJXQWDV DFHUFD GHO SURPHGLR GH KRUDV SRU GtD HQ DVHR" ¢&UHHV TXH SXHGD KDEHU XQD GLIHUHQFLD GH JpQHUR" 7H KDFH SHQVDU ¢QR HV DVt"
&RPR VH GHPXHVWUD FRQ OD JUiÀFD GH OD SiJLQD XQD GH ODV IRUPDV PiV ~WLOHV SDUD IDPLOLDUL]DUVH FRQ OD LQIRUPDFLyQ HV XVDU XQD WpFQLFD GH DQiOLVLV LQLFLDO SDUD H[SORUDU ORV GDWRV TXH UHVXOWDUiQ HQ XQD UHSUHVHQWDFLyQ SLFWyULFD GH ORV PLVPRV /D SUHVHQWDFLyQ UHYHODUi YLVXDOPHQWH SDWURQHV GH FRPSRUWDPLHQWR GH OD YDULDEOH D HVWXGLDU ([LVWHQ YDULDV IRUPDV JUiÀFDV YLVXDOHV SDUD GHVFULELU OD LQIRUPDFLyQ (O WLSR GH GDWRV \ OD LGHD D SUHVHQWDU GHWHUPLQDQ FXiO PpWRGR XVDU
Datos cualitativos GrĂĄďŹ cas de pastel (grĂĄďŹ cas circulares) y grĂĄďŹ cas de barras GrĂĄďŹ cas que se usan para resumir datos cualitativos, atributos o categĂłricos. Las grĂĄďŹ cas de pastel (grĂĄďŹ cas circulares) muestran la cantidad de datos que pertenecen a cada categorĂa como una parte proporcional de un cĂrculo. Las grĂĄďŹ cas de barras muestran la cantidad de datos que pertenecen a cada categorĂa como un ĂĄrea rectangular de tamaĂąo proporcional.
EJEMPLO 2.1 GRAFICACIĂ“N DE DATOS CUALITATIVOS La tabla 2.1 presenta el nĂşmero de casos de cada tipo de operaciĂłn realizada en el Hospital General el Ăşltimo aĂąo. TABLA 2.1 Operaciones realizadas en el Hospital General el Ăşltimo aĂąo [TA02-01] Tipo de operaciĂłn TorĂĄcica Huesos y articulaciones Ojo, oĂdo, nariz y garganta General Abdominal UrolĂłgica ProctolĂłgica NeurocirugĂa Total
NĂşmero de casos 20 45 58 98 115 74 65 23 498
34
Capítulo 2
Análisis descriptivo y presentación de datos de una variable
Los datos en la tabla 2.1 se muestran en una gráfica de pastel en la figura 2.1, donde cada tipo de operación se representa mediante una proporción relativa de un círculo, que se encuentra al dividir el número de casos por el tamaño muestral total, a saber, 498. Las proporciones se reportan entonces como porcentajes (por ejemplo, 25% es 1/4 del círculo). La figura 2.2 muestra los mismos datos de “tipo de operación”, pero en forma de una gráfica de barras. Las gráficas de barras de datos de atributo deben dibujarse con un espacio entre barras de igual ancho. FIGURA 2.1 Gráfica de pastel
FIGURA 2.2 Gráfica de barras
Operaciones realizadas en el Hospital General el último año
Operaciones realizadas en el Hospital General el último año 120
20 Neurocirugía Torácica
Ojo, oído, nariz y garganta
Huesos y articulaciones
0
Neurocirugía
9%
40
Proctológica
12%
5% 4%
60
Urológica
20% General
Abdominal
sentaciones gráficas necesitan explicarse completamente a sí mismas. Esto incluye una descripción, título significativo e identificación adecuada de las cantidades y variables involucradas.
13% Proctológica
80
Torácica Huesos y articulaciones Ojo, oído, nariz y garganta General
PTI Todas las repre-
100
15% Urológica
Número de casos
23% Abdominal
Tipo de operación
INSTRUCCIONES DE TECNOLOGÍA: G R Á F I C A D E PA S T E L MINITAB
Escribe las categorías en C1 y las frecuencias correspondientes en C2; después continúa con:
Elige: Selecciona: Escribe: Selecciona: Selecciona:
Excel
Graph > Pie Chart . . . Chart Values from a table Variable categórica: C1 Variables resumen: C2 Labels > Title/Footnotes Escribe: Título: tu título Etiquetas deseadas > Select desired labels > OK > OK
Escribe las categorías en la columna A y las frecuencias correspondientes en la columna B; activa ambas columnas de datos al resaltar y seleccionar los nombres de columna y las celdas de datos, después continúa con:
Elige: Elige: Escribe:
Insert > Pie > 1st picture (usualmente) Chart Layouts—Layout 1 Chart title: Tu título
SecciĂłn 2.1
GrĂĄficas, diagramas de Pareto y diagramas de tallo y hojas
35
Para editar la grĂĄďŹ ca de pastel:
Haz clic en:
TI-83/84 Plus
Cualquier parte para limpiar la grĂĄfica (usa las manijas para el tamaĂąo) Cualquier celda en la categorĂa o columna de frecuencia y escribe diferentes nombres o cantidades > ENTER
Escribe las frecuencias para las diversas categorĂas en L1; despuĂŠs continĂşa con:
Elige: Escribe:
PRGM > EXEC > CIRCLE* LIST: L1 > ENTER DATA DISPLAYED?: 1:PERCENTAGES OR 2:DATA
* El programa “CIRCLEâ€? de la TI-83/84 Plus y otros programas estĂĄn disponibles para descarga a travĂŠs de cengagebrain.com. Los programas de la TI-83/84 Plus y los archivos de datos pueden estar en formato zip o comprimido. Si es asĂ, guarda los archivos y descomprĂmelos usando una utilidad zip. Descarga los programas a tu calculadora usando el software TI-Graph Link.
&XDQGR OD JUiĂ€FD GH EDUUDV VH SUHVHQWD HQ OD IRUPD GH XQ diagrama de Pareto SUHVHQWD LQIRUPDFLyQ DGLFLRQDO \ PX\ ~WLO Diagrama de Pareto GrĂĄďŹ ca de barra con las barras ordenadas de la categorĂa mĂĄs numerosa a la categorĂa menos numerosa. Incluye una grĂĄďŹ ca de lĂnea que muestra los porcentajes acumulados y conteos de las barras. (O GLDJUDPD GH 3DUHWR HV SRSXODU HQ DSOLFDFLRQHV GH FRQWURO GH FDOLGDG 8Q GLDJUDPD GH 3DUHWR GH WLSRV GH GHIHFWR PRVWUDUi DTXHOORV TXH WHQJDQ HO PD\RU HIHFWR VREUH OD WDVD GH GHIHFWRV HQ RUGHQ GH HIHFWR (QWRQFHV HV IiFLO YHU FXiOHV GHIHFWRV GHEHQ REVHUYDUVH SDUD UHGXFLU GH PDQHUD PiV HIHFWLYD OD WDVD GH GHIHFWRV
EJEMPLO 2.2 DIAGRAMA DE PARETO DE CRĂ?MENES DE ODIO El FBI reportĂł el nĂşmero de crĂmenes de odio por categorĂa para 2003 (http://www.fbi.gov/). El diagrama de Pareto de la ďŹ gura 2.3 muestra los 8 715 crĂmenes de odio por categorĂa, sus porcentajes y porcentajes acumulados. Diagrama de Pareto de crimen
FIGURA 2.3 Diagrama de Pareto
9 000
100
8 000
Conteo
6 000 60
5 000 4 000
40
3 000 2 000
20
1 000 0
Raza OrientaciĂłn Reli- Etnicidad sexual giĂłn Conteo 4 574 1 430 1 426 1 236 Porcentaje 52.5 16.4 16.4 14.2 % acum. 52.5 68.9 85.3 99.4 Crimen
Otro 49 0.6 100.0
7XWRULDO HQ YLGHR GLVSRQLEOH LQJUHVD \ DSUHQGH PiV HQ FHQJDJHEUDLQ FRP
Porcentaje
80
7 000
36
Capítulo 2
Análisis descriptivo y presentación de datos de una variable
INSTRUCCIONES DE TECNOLOGÍA: D I A G R A M A D E PA R E T O MINITAB
Escribe las categorías en C1 y las frecuencias correspondientes en C2; después continúa con:
Elige: Selecciona: Escribe: Selecciona: Escribe:
Excel
Start Chart > Quality Tools > Pareto Chart defects table Datos de defectos o atributo en: C1 Frecuencias en: C2 Options Title: tu título > OK > OK
Escribe las categorías en la columna A y las frecuencias correspondientes en la columna B (los encabezados de columna son opcionales); después continúa con: Primero ordena la tabla: Activa ambas columnas de la distribución
Elige: Selecciona: Elige: Elige: Escribe:
Data > AZ / ZA Short Story by: frecuency column Order: Largest to Samllest > OK Insert > Column > 1st picutre (usualmente) Chart Layouts—Layout 9 Título gráfica: tu título Título eje categoría (x): título para eje x Título eje valor (y): título para eje y
Para editar el diagrama de Pareto:
Haz clic en:
Cualquier parte para limpiar la gráfica (usa las manijas para el tamaño) Cualquier nombre de título para cambiarlo Cualquier celda en la columna de categoría y escribe un nombre > Enter
Excel no incluye la gráfica de línea.
TI-83/84 Plus
Escribe las categorías numeradas en L1 y las frecuencias correspondientes en L2; después continúa con:
Elige: Escribe: Ymax: Yscl:
PRGM > EXEC > PARETO * LIST: L2 > ENTER al menos la suma de las frecuencias > ENTER incremento para eje y > ENTER
*El programa “PARETO” es uno de muchos programas que están disponibles para descargar. Véase la página 35 para instrucciones específicas.
Datos cuantitativos 8QD GH ODV SULQFLSDOHV UD]RQHV SDUD FRQVWUXLU XQD JUiÀFD GH datos cuantitativos es mostrar VX distribución Distribución Patrón de variabilidad que muestran los datos de una variable. La distribución muestra la frecuencia de cada valor de la variable. 8QD GH ODV JUiÀFDV PiV VLPSOHV XVDGDV SDUD PRVWUDU XQD GLVWULEXFLyQ HV OD JUiÀFD GH puntos
Sección 2.1
Gráficas, diagramas de Pareto y diagramas de tallo y hojas
37
Gráfica de puntos Describe los datos de una muestra al representar cada valor de datos con un punto colocado a lo largo de una escala. Esta escala puede ser horizontal o vertical. La frecuencia de los valores se representa a lo largo de la otra escala.
EJEMPLO 2.3 GRÁFICA DE PUNTOS DE CALIFICACIONES DE EXAMEN La tabla 2.2 proporciona una muestra de 19 calificaciones de examen seleccionadas al azar de una clase grande. TABLA 2.2 Muestra de 19 calificaciones de examen [TA02-02] 76 86
74 84
82 62
96 76
66 78
76 92
78 82
72 74
52 88
68
La figura 2.4 es una gráfica de puntos de las 19 calificaciones de examen. 19 calificaciones de examen
FIGURA 2.4 Gráfica de puntos Frecuencia
3 2 1
50
60
70
80
90
100
Calificación
Nota cómo los datos de la figura 2.4 están “apiñados” cerca del centro y más “dispersos” cerca de los extremos. /D JUiÀFD GH SXQWRV HV XQD WpFQLFD FRQYHQLHQWH TXH VH XVD FXDQGR XQR FRPLHQ]D D DQDOL]DU ORV GDWRV 5HVXOWD HQ XQD LPDJHQ GH ORV GDWRV TXH ORV RUGHQD QXPpULFDPHQWH Ordenar ORV GDWRV HV KDFHU XQD OLVWD GH ORV PLVPRV HQ XQD FODVLÀFDFLyQ RUJDQL]DGD GH DFXHUGR FRQ HO YDORU QXPpULFR
INSTRUCCIONES DE TECNOLOGÍA: GRÁFICA DE PUNTOS MINITAB
Escribe los datos en C1; después continúa con:
Elige: Escribe:
Excel
Graph > Dotplot . . . > One Y, Simple > OK Graph Variables: C1 > OK
La gráfica de puntos no está disponible, pero puedes hacer el paso inicial de clasificar los datos. Escribe los datos en la columna A y activa la columna de datos; después continúa con:
Elige:
Data > AZ
(Sort)
Use los datos ordenados para terminar de construir la gráfica de puntos.
38
Capítulo 2
TI-83/84 Plus
Análisis descriptivo y presentación de datos de una variable
Escribe los datos en L1; después continúa con:
Elige: Escribe:
PRGM > EXEC > DOTPLOT * LIST: L1 > ENTER Xmin: cuando mucho el valor x más bajo Xmax: al menos el valor x más alto Xscl: 0 o incremento Ymax: al menos la frecuencia más alta
*El programa “DOTPLOT” es uno de muchos programas que están disponibles para descargar. Véase la página 35 para instrucciones específicas.
(Q DxRV UHFLHQWHV VH KD YXHOWR SRSXODU XQD WpFQLFD FRQRFLGD FRPR presentación de tallo y hojas SDUD UHVXPLU GDWRV QXPpULFRV (V XQD FRPELQDFLyQ GH XQD WpFQLFD JUiÀFD \ XQD WpFQLFD GH RUGHQDFLyQ 'LFKDV SUHVHQWDFLRQHV VRQ VLPSOHV GH FUHDU \ XVDU \ VRQ EDVWDQWH DGHFXDGDV SDUD DSOLFDFLRQHV GH FyPSXWR Presentación de tallo y hojas Presenta los datos de una muestra con los dígitos reales que constituyen los valores de datos. Cada valor numérico se divide en dos partes: el (los) dígito(s) inicial(es) es (son) el tallo y los dígitos posteriores son las hojas. Los tallos se ubican a lo largo del eje principal y para cada valor de datos se ubica una hoja de modo que muestre la distribución de los datos.
EJEMPLO 2.4 CONSTRUCCIÓN DE UNA PRESENTACIÓN DE TALLO Y HOJAS FIGURA 2.5A Presentación sin terminar de tallo y hojas 19 calificaciones de examen 5 6 7 8 9
2 6 6 2 6
8 2 4 6 8 2 6 8 4 6 4 2 8 2
FIGURA 2.5B Presentación final de tallo y hojas 19 calificaciones de examen 5 6 7 8 9
2 2 2 2 2
Ahora construye una presentación de tallo y hojas para las 19 calificaciones de examen que se proporcionan en la tabla 2.2 de la página 37. En un vistazo rápido podrás ver que hay calificaciones en los 50, 60, 70, 80 y 90. Usa el primer dígito de cada calificación como el tallo y el segundo dígito como la hoja. Por lo general, la presentación se construye verticalmente. Traza una línea vertical y coloca los tallos, en orden, a la izquierda de la línea. 5 6 7 8 9 A continuación coloca cada hoja sobre su tallo. Esto se hace al colocar el dígito posterior a la derecha de la línea vertical opuesta a su correspondiente dígito inicial. El primer valor de datos es 76; 7 es el tallo y 6 es la hoja. Por tanto, coloca un 6 opuesto al tallo 7: 7|6
6 8 4 4 6 6 6 8 8 2 4 6 8 6
El siguiente valor de datos es 74, de modo que una hoja 4 se coloca en el tallo 7 junto al 6. 7|64
SecciĂłn 2.1
FIGURA 2.6 PresentaciĂłn de tallo y hojas
2
(60–64) 6 (65–69) 6 (70–74) 7
2 6 8 2 4 4
(75–79) 7 (80–84) 8 (85–89) 8
6 6 6 8 8 2 2 4 6 8
(90–94) 9 (95–99) 9
2 6
39
El siguiente valor de datos es 82, de modo que una hoja 2 se coloca en el tallo 8. 7 64 8 2
19 caliďŹ caciones de examen
(50–54) 5 (55–59) 5
GrĂĄficas, diagramas de Pareto y diagramas de tallo y hojas
ContinĂşa hasta que cada una de las otras 16 hojas se coloque en la presentaciĂłn. La ďŹ gura 2.5A muestra la presentaciĂłn resultante en tallo y hojas; la ďŹ gura 2.5B muestra la presentaciĂłn completa de tallo y hojas despuĂŠs de ordenar las hojas. A partir de la ďŹ gura 2.5B, puedes ver que las caliďŹ caciones se centran alrededor de los 70. En este caso todas las caliďŹ caciones con los mismos dĂgitos de decenas se colocaron sobre la misma rama, pero esto puede no ser siempre deseable. SupĂłn que reconstruyes la presentaciĂłn; esta vez, en lugar de agrupar 10 posibles valores en cada tallo, agrupas los valores de modo que sĂłlo 5 posibles valores puedan caer en cada tallo, como se muestra en la ďŹ gura 2.6. ÂżObservas alguna diferencia en la apariencia de la ďŹ gura 2.6?, la forma general es aproximadamente simĂŠtrica en torno al alto de los 70. La informaciĂłn estĂĄ un poco mĂĄs reďŹ nada, pero bĂĄsicamente se ve la misma distribuciĂłn.
INSTRUCCIONES DE TECNOLOGĂ?A: P R E S E N TA C I O N E S D E TA L L O Y H O J A S MINITAB
Escribe los datos en C1; despuĂŠs continĂşa con:
Elige: Escribe:
Excel
Graph > Stem-and-Leaf ... Graph varialbes: C1 Increment: ancho de tallo (opcional) > OK
Escribe los datos en la columna A; despuĂŠs continĂşa con:
Elige: Escribe:
Add-Ins > Data Analysis Plus* > Stem and Leaf Display > OK Input Range: (A2:A6 o selecciona celdas) Increment: Stem Increment
*Data Analysis Plus es una colecciĂłn de macros estadĂsticos para Excel y uno de los muchos programas disponibles para descargar a travĂŠs de cengagebrain.com.
TI-83/84 Plus
Escribe los datos en L1; despuĂŠs continĂşa con:
Elige: Escribe:
STAT > EDIT > 2:SortA( L1
Usa los datos ordenados para terminar de construir a mano el diagrama de tallo y hojas.
(V EDVWDQWH XVXDO TXH PXFKDV YDULDEOHV SUHVHQWHQ XQD GLVWULEXFLyQ TXH HVWp FRQFHQWUDGD DMXVWDGD HQ WRUQR D XQ YDORU FHQWUDO \ GHVSXpV HQ DOJXQD IRUPD GLVSHUVD HQ XQD R DPEDV GLUHFFLRQHV &RQ IUHFXHQFLD XQD SUHVHQWDFLyQ JUiÀFD UHYHOD DOJR TXH HO DQDOLVWD SXHGH R QR KDEHU DQWLFLSDGR (O HMHPSOR GHPXHVWUD OR TXH HQ JHQHUDO RFXUUH FXDQGR GRV SREODFLRQHV VH PXHVWUHDQ MXQWDV
40
Capítulo 2
Análisis descriptivo y presentación de datos de una variable
EJEMPLO 2.5 DISTRIBUCIONES TRASLAPADAS Se selecciona una muestra aleatoria de 50 estudiantes universitarios. Sus pesos se obtienen a partir de sus registros médicos. Los datos resultantes se muestran en la tabla 2.3. Observa que los pesos varían de 98 a 215 libras. Agrupa los pesos en tallos de 10 unidades, usando los dígitos de centenas y decenas como tallos y los dígitos de unidades como la hoja (véase la figura 2.7). Las hojas se ordenaron numéricamente. Una inspección cercana de la figura 2.7 sugiere que pueden estar involucradas dos distribuciones traslapadas. Esto es exactamente lo que se tiene: una distribución de pesos de mujeres y una distribución de pesos de hombres. La figura 2.8 muestra una presentación de tallo y hojas “espalda con espalda” de este conjunto de datos y hace obvio que están involucradas dos distribuciones distintas. TABLA 2.3 Pesos de 50 estudiantes universitarios [TA02-03] Estudiante Hombre/Mujer Peso
1 M 98
2 H 150
3 M 108
4 H 158
5 H 162
6 M 112
7 M 118
8 H 167
9 H 170
10 M 120
Estudiante Hombre/Mujer Peso
11 H 177
12 H 186
13 H 191
14 M 128
15 M 135
16 H 195
17 M 137
18 H 205
19 H 190
20 M 120
Estudiante Hombre/Mujer Peso
21 H 188
22 H 176
23 M 118
24 H 168
25 M 115
26 M 115
27 H 162
28 H 157
29 H 154
30 H 148
Estudiante Hombre/Mujer Peso
31 M 101
32 H 143
33 H 145
34 M 108
35 H 155
36 M 110
37 H 154
38 M 116
39 H 161
40 H 165
Estudiante Hombre/Mujer Peso
41 M 142
42 H 184
43 M 120
44 H 170
45 H 195
46 M 132
47 M 129
48 H 215
49 H 176
50 H 183
FIGURA 2.7 Presentación de tallo y hojas
FIGURA 2.8 Presentaciones de tallos y hojas “espalda con espalda”
Pesos de 50 estudiantes universitarios (lb)
N = 50 9 10 11 12 13 14 15 16 17 18 19 20 21
Unidad hoja = 1.0 8 1 0 0 2 2 0 1 0 3 0 5 5
8 2 0 5 3 4 2 0 4 1
8 5 0 7 5 4 2 6 6 5
5 6 8 8 8 9 8 5 7 8 5 7 8 6 7 8 5
Pesos de 50 estudiantes universitarios (lb) Mujeres 1 0 2 5 5 6 0 0 0 2
8 8 8 5
Hombres 8 8 8 9 7 2
09 10 11 12 13 14 15 16 17 18 19 20 21
7XWRULDO HQ YLGHR GLVSRQLEOH LQJUHVD \ DSUHQGH PiV HQ FHQJDJHEUDLQ FRP
3 0 1 0 3 0 5 5
5 4 2 0 4 1
8 4 2 6 6 5
5 7 8 5 7 8 6 7 8 5
Sección 2.1
41
Gráficas, diagramas de Pareto y diagramas de tallo y hojas
La figura 2.9, una gráfica de puntos “lado a lado” (misma escala) de los mismos 50 datos de peso, muestra la misma distinción entre los dos subconjuntos. Con base en la información que se muestra en las figuras 2.8, 2.9 y en lo que se sabe acerca del peso de las personas, parece razonable concluir que las estudiantes universitarias pesan menos que los estudiantes universitarios. En el capítulo 3 se estudian las situaciones que involucran más de un conjunto de datos. FIGURA 2.9 Gráficas de puntos con escala común Pesos de 50 estudiantes universitarios
Mujer
Pesos
Pesos
Hombre 100
125
150
175
200
225
INSTRUCCIONES DE TECNOLOGÍA: G R Á F I C A D E P U N T O S M Ú LT I P L E S MINITAB
Escribe los datos en C1 y las correspondientes categorías numéricas en C2; después continúa con:
Elige: Selecciona: Escribe:
Graph > Dotplot . . . One Y, With Groups > OK Graficar variables: C1 Variables categóricas para agrupamiento: C2 > OK
Si las diversas categorías están en columnas separadas, selecciona Multiple Y’s Simple e ingresa todas las columnas bajo Graficar variables.
Excel
No están disponibles gráficas de puntos múltiples, pero puedes hacer el paso inicial de clasificar los datos. Usa los comandos como se muestran con la gráfica de puntos de la página 37; después termina la construcción de la gráfica de puntos a mano.
TI-83/84
Escribe los datos para la primera gráfica de puntos en L1 y los datos para la segunda gráfica de puntos en L3; después continúa con:
Elige: Escribe:
STAT > EDIT > 2:SortA( L1 > ENTER En L2, escribe números de conteo para cada categoría. Ej. L1 L2 15 1 16 1 16 2 17 1
42
Capítulo 2
Análisis descriptivo y presentación de datos de una variable
Elige:
STAR > EDIT > 2:SortA( L3 > ENTER En L4, escribe números de conteo (un conjunto* superior) para cada categoría; *por ejemplo: usa 10, 10, 11, 10, 10, 11, 12, . . . (recorre las dos gráficas de puntos) 2nd > FORMAT > AxesOff (Opcional: debe regresar a AxesOn) 2nd > STAT PLOT > 1:PLOT1
Elige:
2nd > STAT PLOT > 2:PLOT2
Elige: Escribe:
Window cuando mucho el valor más bajo para ambos, al menos el valor más alto para ambos, 0 o incremento, –2, al menos número de conteo más alto, 1, 1 Graph > Trace > > > > (proporciona valores de datos)
Elige: Escribe:
>(; @ LGHQWLÀ FD HO QRPEUH GH DUFKLYR GH XQD EDVH GH GDWRV HQ OtQHD GH XQ HMHUFLFLR GLVSRQLEOH D WUDYpV GH FHQJDJHEUDLQ FRP
Elige:
Elige:
EJERCICIOS SECCIÓN 2.1 2.1 D ¢8VXDOPHQWH FXiQWR WLHPSR HPSOHDV HQ WX DVHR SRU GtD" E ¢&yPR FUHHV TXH WH FRPSDUDV FRQ ORV HVWX GLDQWHV XQLYHUVLWDULRV HQ ´(VWXGLDQWHV DTXt ORV RE VHUYDQµ GH OD SiJLQD " F ¢&yPR FUHHV TXH WH FRPSDUDV FRQ WRGRV ORV HVWX GLDQWHV XQLYHUVLWDULRV" ¢&XiOHV VRQ ODV VLPLOLWXGHV" ¢&XiOHV VRQ ODV GLIHUHQFLDV"
F ´(Q WpUPLQRV JHQHUDOHV OD JUiÀ FD GH EDUUDV HV XQD PHMRU RS FLyQ SDUD XVDU TXH OD JUiÀ FD FLUFXODU µ -XVWLÀ FD HVWD DÀ UPDFLyQ 2.4 /RV UHVXOWDGRV GH XQD HQFXHVWD 6HOI FRP DFHUFD GH ´¢&XiO HV WX SULQFLSDO SUHRFXSDFLyQ GH EHOOH]D HQ FOLPD IUtR"µ VH UHSRUWDURQ HQ HO Q~PHUR GH GLFLHPEUH GH GH OD UHYLVWD Self SLHO VHFD ODELRV DJULHWDGRV FDEHOOR VLQ EULOOR SLHV iVSHURV D &RQVWUX\H XQD JUiÀ FD GH SDVWHO TXH PXHVWUH ODV SULQFLSD OHV SUHRFXSDFLRQHV GH EHOOH]D GH FOLPD IUtR
2.2 [EX02-002] $ HVWXGLDQWHV HQ XQ FXUVR GH HVWDGtVWLFD HQ OtQHD VH OHV SUHJXQWy HQ FXiQWDV GLIHUHQWHV DFWLYLGDGHV HQ LQ E &RQVWUX\H XQD JUiÀ FD GH EDUUDV TXH PXHVWUH ODV SULQFLSD OHV SUHRFXSDFLRQHV GH EHOOH]D GH FOLPD IUtR WHUQHW VH LQYROXFUDQ GXUDQWH XQD VHPDQD WtSLFD /RV VLJXLHQWHV GDWRV PXHVWUDQ HO Q~PHUR GH DFWLYLGDGHV F (Q WX RSLQLyQ ¢OD JUiÀ FD GH SDVWHO GHO LQFLVR D R OD JUiÀ FD GH EDUUDV GHO LQFLVR E UHVXOWD XQD PHMRU UHSUHVHQWDFLyQ 6 7 3 6 9 10 8 9 9 6 4 9 4 9 4 2 3 5 13 12 4 6 4 9 5 6 9 GH OD LQIRUPDFLyQ" ([SOLFD 11
5
6
5
3
7
9
6
5 12
2
6
9
D 6L VH WH SLGH SUHVHQWDU GLFKRV GDWRV ¢FyPR ORV RUJDQL]D UtDV \ ORV UHVXPLUtDV" E ¢(Q FXiQWDV GLIHUHQWHV DFWLYLGDGHV HQ LQWHUQHW WH LQYROX FUDVWH OD VHPDQD SDVDGD"
2.5 /D $PHULFDQ 3D\UROO $VVRFLDWLRQ REWXYR XQD JUDQ UHV SXHVWD D HVWD SUHJXQWD DFHUFD GHO FyGLJR GH YHVWLGR GH OD FRP SDxtD ´(O DFWXDO FyGLJR GH YHVWLGR HQ PL FRPSDxtD HV µ
5HVXOWDGRV À QDOHV D 'HPDVLDGR UHODMDGR E 'HPDVLDGR IRUPDO F $GHFXDGR F ¢&yPR FUHHV TXH WH FRPSDUDV FRQ ORV XVXDULRV GH LQ /D PD\RUtD GH ODV SHUVRQDV PHQFLRQy OD LPSRUWDQFLD GH OD ´FR WHUQHW HQ OD PXHVWUD DQWHULRU" PRGLGDGµ HQ VXV H[SOLFDFLRQHV /D JUDQ PD\RUtD GH ORV UHTXH 2.3 &RPR JUiÀ FD HVWDGtVWLFD OD JUiÀ FD FLUFXODU WLHQH OLPLWD ULGRV HVWXYR PX\ IHOL] FRQ HO FyGLJR R SROtWLFD GH YHVWLGR GH FLRQHV ([DPLQD OD JUiÀ FD FLUFXODU GH OD À JXUD \ OD JUiÀ FD VX FRPSDxtD GH EDUUDV HQ OD À JXUD D &RQVWUX\H XQD JUiÀ FD FLUFXODU TXH PXHVWUH HVWD LQIRUPD D ¢4Xp LQIRUPDFLyQ PXHVWUDQ DPEDV" FLyQ (WLTXpWDOD SRU FRPSOHWR E ¢4Xp LQIRUPDFLyQ VH PXHVWUD HQ OD JUiÀ FD FLUFXODU TXH QR E &RQVWUX\H XQD JUiÀ FD GH EDUUDV TXH PXHVWUH HVWD PLVPD VH SXHGH PRVWUDU HQ OD JUiÀ FD GH EDUUDV" LQIRUPDFLyQ (WLTXpWDOD SRU FRPSOHWR
Sección 2.1
Gráficas, diagramas de Pareto y diagramas de tallo y hojas
43
F &RPSDUD ODV GRV JUiÀFDV DQWHULRUHV \ GHVFULEH OR TXH YHV HQ FDGD XQR DKRUD TXH ODV JUiÀFDV HVWiQ FRPSOHWDPHQWH GLEXMDGDV \ HWLTXHWDGDV ¢2EWLHQHV OD PLVPD LPSUHVLyQ DFHUFD GH ORV VHQWLPLHQWRV GH HVWDV SHUVRQDV D SDUWLU GH DPEDV JUiÀFDV" ¢$OJXQD HQIDWL]D DOJR TXH OD RWUD QR"
D &RQVWUX\H XQD JUiÀFD GH SDVWHO GH HVWH GHVJORVH
2.6 (Q OD LQVWDQWiQHD GHO USA Today GHO GH IHEUHUR GH VH UHSRUWy FXiQWR PiV ORV MyYHQHV HVWDGRXQLGHQVHV HQWUH \ DxRV GH HGDG TXLHUHQ SDJDU SRU XQ YHKtFXOR DPLJDEOH FRQ HO DPELHQWH PXFKR PiV XQ SRFR PiV OLJHUDPHQWH PiV QR SDJDUtDQ PiV
2.9 /LPSLDU GHWUiV GH ORV PXHEOHV \ ODYDU ODV YHQWDQDV HQFDEH]DQ OD OLVWD GH ODERUHV GRPpVWLFDV GH OLPSLH]D JHQHUDO GH DFXHUGR FRQ OD ~OWLPD (QFXHVWD 1DFLRQDO GH /LPSLH]D *HQHUDO GH OD 6RDS DQG 'HWHUJHQW $VVRFLDWLRQ 6'$ /D ,QWHUQDWLRQDO &RPPXQLFDWLRQV 5HVHDUFK ,&5 FRPSOHWy HO HVWXGLR LQGHSHQGLHQWH GH LQYHVWLJDFLyQ GHO FRQVXPLGRU HQ HQHUR IHEUHUR GH /D SUHJXQWD LQLFLDO GH OD HQFXHVWD VH SODQWHy D DGXOWRV HVWDGRXQLGHQVHV KRPEUHV \ PXMHUHV
D 0HQFLRQD OD YDULDEOH GH LQWHUpV E ,GHQWLÀFD HO WLSR GH YDULDEOH F &RQVWUX\H XQD JUiÀFD GH SDVWHO TXH PXHVWUH FyPR VH VLHQWHQ ORV MyYHQHV HVWDGRXQLGHQVHV DFHUFD GH SDJDU SRU XQ YHKtFXOR DPLJDEOH FRQ HO DPELHQWH G &RQVWUX\H XQD JUiÀFD GH EDUUDV TXH PXHVWUH FyPR VH VLHQWHQ ORV MyYHQHV HVWDGRXQLGHQVHV DFHUFD GH SDJDU SRU XQ YHKtFXOR DPLJDEOH FRQ HO DPELHQWH
E &RQVWUX\H XQD JUiÀFD GH EDUUDV GH HVWH GHVJORVH F &RPSDUD ODV GRV JUiÀFDV TXH FRQVWUXLVWH HQ ORV LQFLVRV D \ E ¢FXiO SDUHFH VHU OD PiV LQIRUPDWLYD" ([SOLFD SRU TXp
/D SUHJXQWD GHFtD ¢5HJXODUPHQWH VH LQYROXFUD HQ OLPSLH]D JHQHUDO" 5HVXOWDGRV 6t 1R
0iV PXMHUHV TXH KRPEUHV KDFHQ OLPSLH]D JHQHUDO
H (Q WX RSLQLyQ ¢FXiO JUiÀFD HV OD PHMRU UHSUHVHQWDFLyQ GH OD LQIRUPDFLyQ" ¢3RU TXp" ([SOLFD
D &RQVWUX\H \ HWLTXHWD FRPSOHWDPHQWH XQD JUiÀFD GH EDUUDV TXH PXHVWUH ORV UHVXOWDGRV GH WRGRV ORV DGXOWRV HQFXHVWD2.7 $ FRQWLQXDFLyQ VH PXHVWUD HO Q~PHUR GH SXQWRV DQRWDGRV GRV SRU ORV HTXLSRV JDQDGRUHV HO GH RFWXEUH GH OD QRFKH E &RQVWUX\H \ HWLTXHWD FRPSOHWDPHQWH XQD JUiÀFD GH EDUUDV GH DSHUWXUD GH OD WHPSRUDGD GH OD 1%$ TXH PXHVWUH ORV UHVXOWDGRV FRPSDUDWLYRV GH PXMHUHV \ Equipo Boston Chicago LA Lakers KRPEUHV SRU VHSDUDGR Puntos anotados
90
108
96
Fuente: http://www.nba.com/
D 'LEXMD XQD JUiÀFD GH EDUUDV GH HVWDV SXQWXDFLRQHV FRQ XQD HVFDOD YHUWLFDO TXH YDUtH GH D E 'LEXMD XQD JUiÀFD GH EDUUDV GH ODV SXQWXDFLRQHV FRQ XQD HVFDOD YHUWLFDO TXH YDUtH GH D F ¢(Q FXiO JUiÀFD GH EDUUDV SDUHFH TXH ODV SXQWXDFLRQHV GH OD 1%$ YDUtDQ PiV" ¢3RU TXp" G ¢&yPR SRGUtDV FUHDU XQD UHSUHVHQWDFLyQ SUHFLVD GHO WDPDxR UHODWLYR \ OD YDULDFLyQ HQWUH GLFKDV SXQWXDFLRQHV"
F 'LVFXWH ODV JUiÀFDV GH ORV LQFLVRV D \ E \ DVHJ~UDWH GH FRPHQWDU DFHUFD GH FRQ FXiQWD SUHFLVLyQ R QR ODV JUiÀFDV PXHVWUDQ OD LQIRUPDFLyQ Fuente: http://www.cleaning101.com/
2.10 [EX02-010] (Q RFDVLRQHV ODV FRPSDxtDV GH WDUMHWDV GH FUpGLWR EULQGDQ D VXV FRQVXPLGRUHV XQ UHVXPHQ DO ÀQDO GHO DxR (O UHVXPHQ RIUHFH XQ UHSRUWH DFFHVLEOH \ IiFLO GH OHHU TXH UHVXPH ODV WUDQVDFFLRQHV HQ YDULDV FDWHJRUtDV 8VD OD WDEOD TXH DSDUHFH HQ OD SDUWH VXSHULRU GH OD SiJLQD
D ([SOLFD HO VLJQLÀFDGR GH ODV HQWUDGDV GH WDEOD GH \ 2.8 [EX02-008] /D $PHULFDQ &RPPXQLW\ 6XUYH\ UHFRSLOD GDWRV GH HVWLPDFLRQHV GH SREODFLyQ GHPRJUDItD \ XQLGDGHV E ([SOLFD HO VLJQLÀFDGR GH ORV WRWDOHV \ GH DORMDPLHQWR 'HVSXpV OD 2ÀFLQD GH &HQVRV XVD ORV GDWRV SDUD SURGXFLU \ GLVHPLQDU HVWLPDFLRQHV RÀFLDOHV GH XQLGDGHV F 8VD XQD JUiÀFD GH SDVWHO SDUD PRVWUDU ORV WRWDOHV GH FDWHJRUtD D ÀQ GH DxR XVDQGR WDQWR FDQWLGDGHV HQ GyODUHV GH DORMDPLHQWR SRU HVWDGRV \ FRQGDGRV $ FRQWLQXDFLyQ VH SUHFRPR SRUFHQWDMHV $VHJ~UDWH GH HWLTXHWDU SRU FRPSOHWR VHQWDQ ODV HVWLPDFLRQHV GH XQLGDGHV GH DORMDPLHQWR SDUD OD FLXGDG GH :HEVWHU HQ HO HVWDGR GH 1XHYD <RUN G 8VD XQD JUiÀFD GH EDUUDV SDUD PRVWUDU ORV WRWDOHV PHQVXDOHV $VHJ~UDWH GH HWLTXHWDU SRU FRPSOHWR Unidades de alojamiento Webster, NY Unidades de alojamiento ocupadas por el propietario Unidades de alojamiento ocupadas por arrendatario Unidades de alojamiento vacantes
12 627 3 803 539
Total
16 969
Fuente: U.S. Census Bureau
2.11 8Q LQVSHFWRU GH FDPLVHWDV HQ XQD IiEULFD GH URSD FODVLÀFD ORV ~OWLPRV GHIHFWRV FRPR IDOWD ERWyQ PDOD FRVWXUD WDPDxR LQDGHFXDGR IDOOR GH WHOD &RQVWUX\H XQ GLDJUDPD GH 3DUHWR SDUD HVWD LQIRUPDFLyQ
44
CapĂtulo 2
AnĂĄlisis descriptivo y presentaciĂłn de datos de una variable
Tabla para el ejercicio 2.10 Mes
Viaje
Restaurante
MercancĂa
Auto
Servicios
Utilitarios
Totales
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
$ $ $ $ $ $ $ $ $ $ $ $
â&#x20AC;&#x201D; â&#x20AC;&#x201D; â&#x20AC;&#x201D; 25.00 â&#x20AC;&#x201D; 25.00 25.00 25.00 â&#x20AC;&#x201D; 25.00 â&#x20AC;&#x201D; â&#x20AC;&#x201D;
$ â&#x20AC;&#x201D; $ 39.86 $ 24.45 $ 135-78 $ â&#x20AC;&#x201D; $ 19.12 $ 46.94 $ â&#x20AC;&#x201D; $ 22.18 $ 38.01 $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D;
$ $ $ $ $ $ $ $ $ $ $ $
87.38 9.99 â&#x20AC;&#x201D; â&#x20AC;&#x201D; â&#x20AC;&#x201D; 254.30 281.12 45.54 â&#x20AC;&#x201D; â&#x20AC;&#x201D; 86.51 394.35
$ â&#x20AC;&#x201D; $ 176.90 $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ 64.02 $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D;
$ 13.80 $ (100.55) $ 60.51 $ 260.00 $ 175.27 $ â&#x20AC;&#x201D; $ 30.00 $ 21-48 $ 55.85 $ 61.55 $ 15.00 $ 22.55
$ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ 35.40 $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D; $ â&#x20AC;&#x201D;
$ $ $ $ $ $ $ $ $ $ $ $
Totales
$ 125.00
$ 326.34
$ 1 159.19
$ 240.92
$
$ 35.40
$ 2 502.31
615.46
101.18 126.20 84.96 420.78 175.27 298.42 447.08 127.42 78.03 124.56 101.51 416.90
2.12 [EX02-012] /DV GHĂ&#x20AC; QLFLRQHV GH FRUUHR HOHFWUyQLFR E 'HELGR DO WDPDxR GH OD FDWHJRUtD ´RWURVÂľ HO GLDJUDPD GH 3DUHWR SXHGH QR VHU OD PHMRU JUiĂ&#x20AC; FD D XVDU ([SOLFD SRU VSDP R FRUUHR HOHFWUyQLFR EDVXUD SRU OR JHQHUDO LQFOX\HQ OD TXp \ GHVFULEH TXp LQIRUPDFLyQ DGLFLRQDO VH QHFHVLWD SDUD LGHD GH TXH HO FRUUHR HOHFWUyQLFR QR HV VROLFLWDGR \ VH HQYtD HQ KDFHU DO GLDJUDPD GH 3DUHWR PiV DSURSLDGR PDVD $ SULQFLSLR GH ORV DxRV OD FDQWLGDG GH FRUUHR HOHF WUyQLFR VSDP FUHFLy GH PDQHUD FRQVWDQWH KDVWD OD DFWXDOLGDG 2.14 ÂŁ4Xp 12 GDU HO 'tD GH VDQ 9DOHQWtQ FRQ XQ YROXPHQ WRWDO GH PiV GH PLOORQHV GH FRUUHRV HOHFWUyQLFRV GLDULRV HQ DEULO GH /D FDQWLGDG UHFLELGD FR Presentes no deseados PHQ]y D GLVPLQXLU GHELGR DO XVR GH PHMRU VRIWZDUH GH Ă&#x20AC; OWUDGR Cuando se trata de regalos del DĂa de san ValentĂn, los adultos estadounidenses dicen que 3RU LQFUHtEOH TXH SDUH]FD PHQRV GH spammers HQYLDURQ preďŹ eren NO recibir osos de peluche. DOUHGHGRU GH GH WRGR HO VSDP (O VLJXLHQWH FXDGUR PHQFLRQD ORV SRUFHQWDMHV GH FRUUHR HOHFWUyQLFR VSDP UHWUDQVPLWLGRV SRU FDGD SDtV HQ PaĂs Brasil China UE Francia Alemania India Italia Polonia Rusia Corea del Sur TurquĂa Reino Unido EUA
Porcentaje 4.1 8.4 17.9 3.3 4.2 2.5 2.8 4.8 3.1 6.5 2.9 2.8 19.6
Fuente: http://en.wikipedia.org/
Flores
Osos de peluche
JoyerĂa
No sabe
Fuente: Datos tomados de Anne R. Carey y Juan Thomassie, USA Today
D &RQVWUX\H XQD JUiĂ&#x20AC; FD GH EDUUDV GH HVWD LQIRUPDFLyQ FRQ ORV SRUFHQWDMHV HQ RUGHQ GHFUHFLHQWH
D 'LEXMD XQD JUiĂ&#x20AC; FD GH EDUUDV TXH PXHVWUH ORV SRUFHQWDMHV GH ´3UHVHQWHV QR GHVHDGRVÂľ
E ([SOLFD SRU TXp QR VH SXHGH FRQVWUXLU XQ GLDJUDPD GH 3DUHWR GH HVWD LQIRUPDFLyQ
E 'LEXMD XQ GLDJUDPD GH 3DUHWR TXH PXHVWUH ORV ´3UHVHQWHV QR GHVHDGRV¾
2.13 8Q HVWXGLR FRPSOHWDGR SRU OD ,QWHUQDWLRQDO &RPPXQLFD F 6L TXLHUHV HVWDU VHJXUR GH QR GDU D WX VHU DPDGR DOJR WLRQV 5HVHDUFK SDUD OD 6RDS DQG 'HWHUJHQW $VVRFLDWLRQ 6'$ TXH QR TXLHUH ¢TXp HYLWDUtDV FRPSUDU" ¢&yPR PXHVWUD PHQFLRQD HO DUWtFXOR TXH ORV HVWDGRXQLGHQVHV GLFHQ HVWDUtDQ HVWR HO GLDJUDPD GH 3DUHWR" PiV GHVHRVRV GH FHGHU FRQ OD Ă&#x20AC; QDOLGDG GH SRGHU FRQWUDWDU D DOJXLHQ SDUD KDFHU VX OLPSLH]D JHQHUDO /D UHVSXHVWD PiV SR G 6L VH HQFXHVWD D DGXOWRV ¢TXp IUHFXHQFLDV HVSHUDUtDV TXH RFXUUDQ SDUD FDGD DUWtFXOR QR GHVHDGR PHQFLRQDGR HQ SXODU IXH VHJXLGR SRU FHQDU IXHUD GXUDQWH XQ PHV OD JUiĂ&#x20AC; FD" EROHWRV SDUD FRQFLHUWRV XQ YLDMH GH Ă&#x20AC; Q GH VHPD QD \ RWURV 2.15 (O UHSRUWH GH GHIHFWRV GH OD LQVSHFFLyQ Ă&#x20AC; QDO SDUD OD OtQHD GH HQVDPEODGR $ VH UHSRUWD HQ XQ GLDJUDPD GH 3DUHWR Fuente: http://www.cleaning101.com/ D &RQVWUX\H XQ GLDJUDPD GH 3DUHWR TXH PXHVWUH HVWD LQIRU PDFLyQ
D ¢&XiO HV HO FRQWHR GH GHIHFWR WRWDO HQ HO UHSRUWH"
SecciĂłn 2.1
E 9HULĂ&#x20AC;FD HO PHQFLRQDGR SDUD ´5DVSDGXUDÂľ
CategorĂa
100
Conteo
60 40
50
Porcentaje
80 100
Horas
Dormir Ocio y deportes Actividades educativas Trabajo y actividades relacionadas Comer y beber Viajar Aseo Otro
Defectos de producto 150
45
GrĂĄficas, diagramas de Pareto y diagramas de tallo y hojas
8.3 3.9 3.2 3.0 1.0 1.5 0.8 2.3
Total
24.0
20 0 Defecto Manchado Raspa- Astillado Doblado Abollado Otros Conteo Porcentaje % acum.
56 37.3 37.3
dura
45 23 30.0 15.3 67.3 82.7
12 8.0 90.7
D &RQVWUX\H XQ GLDJUDPD GH 3DUHWR TXH PXHVWUH HO XVR GH WLHPSR SURPHGLR SDUD HVWXGLDQWHV XQLYHUVLWDULRV GH WLHPSR FRPSOHWR
0
8 6 5.3 4.0 96.0 100.0
E ¢4Xp DFWLYLGDGHV SDUHFHQ FRQVWLWXLU GHO GtD GH XQ HVWXGLDQWH XQLYHUVLWDULR"
F ([SOLFD FyPR VH REWXYR \ TXp VLJQLĂ&#x20AC;FD HO YDORU GH GH ´ DFXPXODGR SDUD GREODGRÂľ G /D DGPLQLVWUDFLyQ GLR D OD OtQHD GH SURGXFFLyQ OD PHWD GH UHGXFLU VXV GHIHFWRV HQ ¢$ FXiOHV GRV GHIHFWRV VXJHULUtDV GDU DWHQFLyQ HVSHFLDO SDUD WUDEDMDU KDFLD HVWD PHWD" ([SOLFD
2.18 [EX02-018] /D 2IĂ&#x20AC;FH RI $YLDWLRQ (QIRUFHPHQW DQG 3URFHHGLQJV 8 6 'HSDUWPHQW RI 7UDQVSRUWDWLRQ SXEOLFy HVWD WDEOD TXH PHQFLRQD HO Q~PHUR GH TXHMDV GHO FRQVXPLGRU FRQWUD ODV SULQFLSDOHV DHUROtQHDV HVWDGRXQLGHQVHV SRU FDWHJRUtD GH TXHMD CategorĂa de queja
NĂşmero
CategorĂa de queja
Publicidad Equipaje Servicio al cliente Discapacidad
68 1 421 1 715 477
Problemas de vuelo Sobreventa Devoluciones Reservaciones/ boletaje/abordaje Otro
NĂşmero
2.16 $OJXQDV ODERUHV GH OLPSLH]D VRQ PiV GHWHVWDGDV TXH RWUDV 'H DFXHUGR FRQ OD LQVWDQWiQHD GHO USA Today GHO GH MXOLR GH DFHUFD GH XQD HQFXHVWD GH PXMHUHV GHO &RQVXPHU 5HSRUWV 1DWLRQDO 5HVHDUFK &HQWHU ODV ODERUHV GH OLPSLH]D TXH Tarifas 523 GHVDJUDGDQ PiV D ODV PXMHUHV VH SUHVHQWDQ HQ HO VLJXLHQWH GLDFuente: OfďŹ ce of Aviation Enforcement and Proceedings, U.S. JUDPD GH 3DUHWR Departament of Transportation, Air Travel Consumer Report,
2 031 454 1 106 1 159 322
http://www.infoplease.com/
Labores de limpieza que detestan mĂĄs las mujeres 800
80
600
60
400
40
200
20
0
Labores Limpiar Limpiar Limpiar Conteo Porcentaje % acum.
Quitar ducha/tina retrete refrigerador polvo
262 26.0 26.0
252 25.0 51.0
151 15.0 66.0
141 14.0 80.0
Otras
111 11.0 91.0
Lavar el piso
Porcentaje
100
Conteo
1000
0
91 9.0 100.0
D ¢$ FXiQWDV PXMHUHV HQ WRWDO VH HQFXHVWy" E 9HULĂ&#x20AC;FD HO PHQFLRQDGR SDUD ´/LPSLDU UHIULJHUDGRUÂľ F ([SOLFD FyPR VH REWXYR \ TXp VLJQLĂ&#x20AC;FD HO YDORU GH SDUD ´ DFXPXODGR SDUD TXLWDU SROYRÂľ G ¢&XiOHV WUHV ODERUHV KDUtDQ IHOLFHV D QR PiV GH GH ODV PXMHUHV HQFXHVWDGDV VL GLFKDV ODERUHV VH HOLPLQDUDQ"
D &RQVWUX\H XQ GLDJUDPD GH 3DUHWR TXH PXHVWUH HVWD LQIRUPDFLyQ E ¢(Q FXiOHV TXHMDV UHFRPHQGDUtDV D ODV DHUROtQHDV SRQHU PiV DWHQFLyQ SDUD FRUUHJLUODV VL TXLHUHQ WHQHU HO PHMRU HIHFWR VREUH HO Q~PHUR JOREDO GH TXHMDV" ([SOLFD FyPR HO GLDJUDPD GH 3DUHWR GHO LQFLVR D GHPXHVWUD OD YDOLGH] GH WX UHVSXHVWD 2.19 [EX02-019] (O Q~PHUR GH SXQWRV DQRWDGRV GXUDQWH FDGD MXHJR SRU XQ HTXLSR GH EDORQFHVWR GH EDFKLOOHUDWR OD ~OWLPD WHPSRUDGD IXHURQ ORV VLJXLHQWHV &RQVWUX\H XQD JUiĂ&#x20AC;FD GH SXQWRV GH GLFKRV GDWRV 2.20 [EX02-020] (Q XQ DUWtFXOR GHO USA Today GHO GH MXOLR GH WLWXODGR ´3DUHMDV TXH GLFHQ ÂśQR¡ D ERGDV FRVWRVDVÂľ ORV UHFRUWHV SXHGHQ QR H[WHQGHUVH DO Q~PHUR GH DVLVWHQWHV (Q XQD HQFXHVWD GH ERGDV UHFLHQWHV HO Q~PHUR GH PDGULQDV IXH HO VLJXLHQWH 7
6
5
2
3
7
6 13
6
3
2
7
8
2.17 [EX02-017] /D $PHULFDQ 7LPH 8VH 6XUYH\ TXH VH SUH- D &RQVWUX\H XQ GLDJUDPD GH SXQWRV GH GLFKRV GDWRV VHQWy DO FRPLHQ]R GHO FDStWXOR GHVWDFy HO XVR GHO WLHPSR GH XQ E ¢&XiOHV VRQ ORV Q~PHURV PiV FRPXQHV GH PDGULQDV" GtD GH OD VHPDQD SURPHGLR SDUD HVWXGLDQWHV GH XQLYHUVLGDG GH ¢&yPR PXHVWUD HVWR HO GLDJUDPD GH SXQWRV" WLHPSR FRPSOHWR
9
46
Capรญtulo 2
Anรกlisis descriptivo y presentaciรณn de datos de una variable
2.21 [EX02-021] $ FRQWLQXDFLyQ VH PXHVWUDQ ODV DOWXUDV HQ G ยข4Xp YDORU RFXUULy PiV Q~PHUR GH YHFHV" ยข&XiQWDV YHFHV RFXUULy" SXOJDGDV GH ORV MXJDGRUHV GH EDORQFHVWR TXH IXHURQ ODV SUL PHUDV VHOHFFLRQHV GH ORV HTXLSRV SURIHVLRQDOHV GH OD 1DWLRQDO 2.25 [EX02-025] &RQVWUX\H XQD JUiร FD GH WDOOR \ KRMDV GHO %DVNHWEDOO $VVRFLDWLRQ HQ Q~PHUR GH SXQWRV DQRWDGRV GXUDQWH FDGD MXHJR GH EDORQFHVWR OD ~OWLPD WHPSRUDGD 82 86 76 77 75 72 75 81 78 74 77 73
77 82
81 80
81 84
82 74
80 81
76 80
72 77
74 74
74 78
Fuente: http://www.mynbadraft.com/
D &RQVWUX\H XQD JUiร FD GH SXQWRV GH ODV DOWXUDV GH GLFKRV MXJDGRUHV E 8VD OD JUiร FD GH SXQWRV SDUD GHVFXEULU D ORV MXJDGRUHV PiV EDMR \ PiV DOWR F ยข&XiO HV OD DOWXUD PiV FRP~Q \ FXiQWRV MXJDGRUHV FRP SDUWHQ GLFKD DOWXUD" G ยข4Xp FDUDFWHUtVWLFD GH OD JUiร FD GH SXQWRV LOXVWUD OD DOWXUD PiV FRP~Q" 2.22 [EX02-022] /D WDEOD PHQFLRQD OD PHGLDQD GH ORV SUH FLRV GH YHQWD GH FDVDV SDUD ORV VXEXUELRV GH 5RFKHVWHU 1XHYD <RUN VHJ~Q FLWD HO Democrat & Chronicle GHO GH MXOLR GH Mediana de precios de casas en miles de dรณlares 160 133
125 122 121 190
89 175
100 218
110 130
94 125 180 113
108 235 156 114
56 60
54 66
61 54
71 61
46 52
61 36
55 64
68 51
2.26 [EX02-026] (Q OD WDEOD TXH VH PXHVWUD D FRQWLQXDFLyQ VH SUHVHQWDQ ODV WHPSHUDWXUDV Pi[LPD \ PtQLPD SDUD FDGD XQD GH FLXGDGHV GH 0p[LFR GH XQ GtD GH RFWXEUH GH Ciudad
Temperatura) mรญnima (ยฐC)
Temperatura mรกxima (ยฐC)
25 11 23 11 13 24 11 12 18 23 18 9 10 14 8
28 21 28 19 30 31 29 24 30 29 38 21 20 29 21
Acapulco Aguascalientes Campeche Cd. de Mรฉxico Cd. Juรกrez Cd. Madero Chihuahua Guadalajara Hermosillo Ixtapa Monterrey Puebla Querรฉtaro Tijuana Zacatecas
Fuente: Greater Rochester Association of Realtors
D &RQVWUX\H HO GLDJUDPD GH WDOORV \ KRMDV SDUD OD WHPSHUD WXUD Pi[LPD \ SDUD OD WHPSHUDWXUD PtQLPD
D &RQVWUX\H XQD JUiร FD GH SXQWRV GH GLFKRV GDWRV E 'HVFULEH OD GLVWULEXFLyQ TXH PXHVWUD OD JUiร FD GH SXQWRV HQFRQWUDGD HQ HO LQFLVR D
E &RQ EDVH HQ ORV GLDJUDPDV DQWHULRUHV GHVFULEH OD GLVWUL EXFLyQ GH WHPSHUDWXUDV Pi[LPDV \ GH WHPSHUDWXUDV PtQLPDV 2.23 [EX02-023] 'HOFR 3URGXFWV XQD GLYLVLyQ GH *HQHUDO 0RWRUV SURGXFH FRQPXWDGRUHV GLVHxDGRV SDUD WHQHU XQD ORQ 2.27 [EX02-027] /DV FDQWLGDGHV TXH VH PXHVWUDQ D FRQWLQXD JLWXG WRWDO GH PP 8Q FRQPXWDGRU HV XQ GLVSRVLWLYR FLyQ VRQ ODV WDULIDV TXH FREUD 4XLN 'HOLYHU\ SDUD ORV SDTXH TXH VH XVD HQ HO VLVWHPD HOpFWULFR GH XQ DXWRPyYLO /D VLJXLHQ WHV SHTXHxRV TXH HQWUHJy HO SDVDGR MXHYHV HQ OD WDUGH WH PXHVWUD GH ORQJLWXGHV GH FRQPXWDGRU VH WRPy PLHQWUDV 4.03 3.56 3.10 6.04 5.62 3.16 2.93 3.82 4.30 3.86 VH PRQLWRUHDED HO SURFHVR GH IDEULFDFLyQ 18.802 18.809 18.785 18.830 18.824
18.810 18.794 18.747 18.874 18.835
18.780 18.787 18.802 18.836 18.794
18.757 18.844 18.826 18.758 18.853
18.824 18.824 18.810 18.813 18.823
18.827 18.829 18.802 18.844 18.863
18.825 18.817 18.780 18.861 18.808
Fuente: Con permiso de Delco Products Division, GMC
4.57 3.59 4.57 6.16 2.88 5.03 5.46 3.87 6.81 4.91 3.62 3.62 3.80 3.70 4.15 2.07 3.77 5.77 7.86 4.63 4.81 2.86 5.02 5.24 4.02 5.44 4.65 3.89 4.00 2.99
D &RQVWUX\H XQ GLDJUDPD GH WDOOR \ KRMDV E &RQ EDVH HQ HO GLDJUDPD GH WDOOR \ KRMDV GHVFULEH OD GLV WULEXFLyQ GH ORV GDWRV
8VD XQD FRPSXWDGRUD SDUD FRQVWUXLU XQD JUiร FD GH SXQWRV GH 2.28 [EX02-028] 8QD GH ODV PXFKDV FRVDV TXH UHSRUWy DO S~ HVWRV YDORUHV GH GDWRV EOLFR OD 8 6 &HQVXV %XUHDX HV HO DXPHQWR HQ SREODFLyQ SDUD 2.24 3DUD FRQVWUXLU OD VLJXLHQWH JUiร FD GH SXQWRV VH XVy XQD YDULDV iUHDV JHRJUiร FDV GHQWUR GHO SDtV (Q OD VLJXLHQWH WDEOD VH SUHVHQWD HO SRUFHQWDMH GH LQFUHPHQWR HQ SREODFLyQ SDUD ORV FRPSXWDGRUD FRQGDGRV GH PiV UiSLGR FUHFLPLHQWR HQ (VWDGRV 8QLGRV GHO GH MXOLR GH DO GH MXOLR GH 11.0
12.0
13.0
14.0
15.0
16.0
x
D ยข&XiQWRV YDORUHV GH GDWRV VH PXHVWUDQ" E 0HQFLRQD ORV YDORUHV GH ORV FLQFR GDWRV PiV SHTXHxRV F ยข&XiO HV HO YDORU GHO REMHWR GH GDWRV PiV JUDQGH"
Condado
Estado
Porcentaje
St. Bernard Parish Orleans Parish
Luisiana Luisiana
42.9 13.8
***Para el resto de los datos, ingresa en cengagebrain.com Fuente: http://www.census.gov/
Secciรณn 2.2
47
Distribuciones de frecuencia e histogramas
D &RQVWUX\H XQ GLDJUDPD GH WDOOR \ KRMDV
VH UHODFLRQD FRQ OD GLIHUHQFLD HQWUH XQD WHPSHUDWXUD LQWHULRU GH ย ) \ OD WHPSHUDWXUD H[WHULRU SURPHGLR GH XQ GtD GDGR 8QD WHPSHUDWXUD H[WHULRU SURPHGLR GH ย ) RIUHFH JUDGRV GtD GH FDOHIDFFLyQ (Q HO VLJXLHQWH GLDJUDPD GH WDOOR \ KRMDV FRQVWUXLGR XVDQGR 0,1,7$% VH PXHVWUDQ ORV GtDV JUDGR GH FDOHIDFFLyQ DQXDOHV QRUPDOHV SDUD YDULDV XELFDFLRQHV GH 1HEUDVND
E &RQ EDVH HQ HO GLDJUDPD GH WDOOR \ KRMDV GHVFULEH OD GLVWULEXFLyQ GH ORV GDWRV 2.29 'DGR HO VLJXLHQWH GLDJUDPD GH WDOOR \ KRMDV Steam-and-Leaf of C1 N = 16 Leaf Unit = 0.010 1 59 7 4 60 148 (5) 61 02669 7 62 0247 3 63 58 1 64 3
Steam-and-Leaf of C1 N = 25 Leaf Unit = 10 2 60 78 7 61 03699 9 62 69 11 63 26 (3) 64 233 11 65 48 9 66 8 8 67 249 5 68 18 3 69 145
D ยข&XiO HV HO VLJQLร FDGR GH ยด/HDI 8QLW 8QLGDG GH KRMD ยต" E ยข&XiQWRV GDWRV VH PXHVWUDQ HQ HVWH GLDJUDPD GH WDOOR \ KRMDV"
D ยข&XiO HV HO VLJQLร FDGR GH ยด/HDI 8QLW ยต"
F 0HQFLRQD ORV SULPHURV FXDWUR YDORUHV GH GDWRV
E 0HQFLRQD ORV SULPHURV FXDWUR YDORUHV GH GDWRV
G ยข4Xp HV OD FROXPQD GH Q~PHURV D OD L]TXLHUGD GH OD ร JXUD" 2.30 8Q WpUPLQR TXH VH XVD FRQ IUHFXHQFLD HQ LQYHVWLJDFLyQ HQ HQHUJtD VRODU HV grados dรญa de calefacciรณn (VWH FRQFHSWR
F 0HQFLRQD WRGRV ORV YDORUHV GH GDWRV TXH RFXUULHURQ PiV GH XQD YH]
2.2 Distribuciones de frecuencia e histogramas /DV OLVWDV GH JUDQGHV FRQMXQWRV GH GDWRV QR SUHVHQWDQ XQD JUDQ LPDJHQ (Q RFDVLRQHV VH TXLHUH FRQGHQVDU ORV GDWRV HQ XQD IRUPD PiV PDQHMDEOH (VWR SXHGH ORJUDUVH FRQ OD D\XGD GH XQD distribuciรณn de frecuencias. Distribuciรณn de frecuencias Listado, con frecuencia expresado en forma de tabla, que relaciona los valores de una variable con su frecuencia. TABLA 2.4 Distribuciรณn de frecuencia no agrupada x
f
0 1 2 3 4
1 3 8 5 3
3DUD GHPRVWUDU HO FRQFHSWR GH XQD GLVWULEXFLyQ GH IUHFXHQFLD XWLOLFHPRV HVWH FRQMXQWR GH GDWRV 3 4
2 3
2 2
3 0
2 2
4 2
4 1
1 3
2 3
2 1
6L x UHSUHVHQWD OD YDULDEOH HQWRQFHV SXHGHV XVDU XQD GLVWULEXFLyQ GH IUHFXHQFLDV SDUD UHSUHVHQWDU HVWH FRQMXQWR GH GDWRV DO KDFHU XQD OLVWD GH ORV YDORUHV x FRQ VXV IUHFXHQFLDV 3RU HMHPSOR HO YDORU RFXUUH HQ OD PXHVWUD WUHV YHFHV SRU WDQWR OD frecuencia SDUD x HV (Q OD WDEOD VH PXHVWUD HO FRQMXQWR GH GDWRV FRPSOHWR HQ OD GLVWULEXFLyQ GH IUHFXHQFLDV /D IUHFXHQFLD f HV HO Q~PHUR GH YHFHV TXH HO YDORU x RFXUUH HQ OD PXHVWUD /D WDEOD HV XQD distribuciรณn de frecuencias no agrupadas ยดQR DJUXSDGDVยต SRUTXH FDGD YDORU GH x HQ OD GLVWULEXFLyQ HV LQGHSHQGLHQWH &XDQGR XQ FRQMXQWR JUDQGH GH GDWRV WLHQH PXFKRV YDORUHV x GLIHUHQWHV HQ OXJDU GH DOJXQRV YDORUHV UHSHWLGRV FRPR HQ HO HMHPSOR DQWHULRU SXHGHV DJUXSDU ORV YDORUHV HQ XQ FRQMXQWR GH FODVHV \ FRQVWUXLU XQD distribuciรณn de frecuencias agrupadas (O GLDJUDPD GH WDOOR \ KRMDV GH OD ร JXUD % S PXHVWUD HQ IRUPD GH LPDJHQ XQD GLVWULEXFLyQ GH IUHFXHQFLDV DJUXSDGD &DGD WDOOR UHSUHVHQWD XQD FODVH (O Q~PHUR GH KRMDV HQ FDGD WDOOR HV HO PLVPR TXH OD IUHFXHQFLD SDUD GLFKD PLVPD clase HQ RFDVLRQHV OODPDGD caja /RV GDWRV TXH VH SUHVHQWDQ HQ OD ร JXUD % VH PHQFLRQDQ FRPR XQD GLVWULEXFLyQ GH IUHFXHQFLDV DJUXSDGDV HQ OD WDEOD
48
CapĂtulo 2
AnĂĄlisis descriptivo y presentaciĂłn de datos de una variable
TABLA 2.5 DistribuciĂłn de frecuencias agrupadas Clase 50 60 70 80 90
o o o o o
mĂĄs mĂĄs mĂĄs mĂĄs mĂĄs
a a a a a
menos menos menos menos menos
de de de de de
60 70 80 90 100
50 60 70 80 90
Frecuencia
< 60 < 70 < 80 < 90 < 100
1 3 8 5 2
19
3XHGHV XVDU HO SURFHVR GH WDOOR \ KRMDV SDUD FRQVWUXLU XQD GLVWULEXFLyQ GH IUHFXHQFLDV VLQ HPEDUJR OD UHSUHVHQWDFLyQ HQ WDOORV QR HV FRPSDWLEOH FRQ WRGRV ORV anchos de clase 3RU HMHPSOR ORV DQFKRV GH FODVH GH \ VRQ GLItFLOHV GH XVDU 3RU WDQWR HQ RFDVLRQHV HV YHQWDMRVR WHQHU XQ SURFHGLPLHQWR VHSDUDGR SDUD FRQVWUXLU XQD GLVWULEXFLyQ GH IUHFXHQFLDV DJUXSDGDV
EJEMPLO 2.6 AGRUPAMIENTO DE DATOS PARA FORMAR UNA DISTRIBUCIĂ&#x201C;N DE FRECUENCIAS Para ilustrar este procedimiento de agrupamiento (o clasiďŹ caciĂłn), usa una muestra de 50 caliďŹ caciones del examen ďŹ nal de la clase de estadĂstica elemental del semestre pasado. La tabla 2.6 presenta las 50 caliďŹ caciones. Procedimiento para construir una distribuciĂłn de frecuencias agrupadas 1. IdentiďŹ ca la caliďŹ caciĂłn alta (H = 98) y la caliďŹ caciĂłn baja (L = 39) y encuentra el rango: rango = H â&#x20AC;&#x201C; L = 98 â&#x20AC;&#x201C; 39 = 59 2. Selecciona un nĂşmero de clase (m = 7) y un ancho de clase (c = 10) de modo que el producto (mc = 70) sea un poco mayor que el rango (rango = 59). TABLA 2.6
CaliďŹ caciones de examen de estadĂstica [TA02-06] 60 58 70 72
47 64 64 77
82 95 70 72
95 74 70 86
88 72 58 50
72 88 78 94
67 74 89 92
66 77 44 80
68 39 55 91
98 90 85 75
90 63 82 76
77 68 83 78
86 97
3. Elige un punto de partida. Este punto de partida debe ser un poco menor que la caliďŹ caciĂłn mĂĄs baja, L. SupĂłn que comienzas en 35; al contar desde las decenas (el ancho de clase), obtienes 35, 45, 55, 65, . . ., 95, 105. A ellos se les llama lĂmites de clase. Las clases para los datos en la tabla 2.6 son: 35 45 55 65
o o o o
mĂĄs mĂĄs mĂĄs mĂĄs
a a a a
menos menos menos menos
de de de de
45 55 65 75
95 o mĂĄs a e incluido 105
35 45 55 65 75 85 95
< 45 < 55 < 65 < 75 < 85 < 95 105
Notas: 1. De un vistazo puedes veriďŹ car el patrĂłn de nĂşmero para determinar si la aritmĂŠtica usada para formar las clases fue correcta (35, 45, 55, . . ., 105.) 7XWRULDO HQ YLGHR GLVSRQLEOH LQJUHVD \ DSUHQGH PiV HQ FHQJDJHEUDLQ FRP
SecciĂłn 2.2
Distribuciones de frecuencia e histogramas
49
2. Para el intervalo 3.5 ) x < 45, 35 es el lĂmite de clase inferior y 45 es el lĂmite de clase superior. Las observaciones que caen en el lĂmite de clase inferior permanecen en dicho intervalo; las observaciones que caen en el lĂmite de clase superior pasan al siguiente intervalo superior, excepto por la Ăşltima clase. 3. El ancho de clase es la diferencia entre los lĂmites de clase superior e inferior. 4. Cuando se clasiďŹ can datos, son posibles muchas combinaciones de anchos de clase, nĂşmeros de clases y puntos de partida. No hay una opciĂłn mejor. Intenta algunas combinaciones diferentes y usa el buen juicio para decidir la que usarĂĄs.
(Q FRQVHFXHQFLD VH XVDQ ORV VLJXLHQWHV lineamientos bĂĄsicos SDUD FRQVWUXLU XQD GLVWULEXFLyQ GH IUHFXHQFLD DJUXSDGD &DGD FODVH GHEH VHU GHO PLVPR DQFKR /DV FODVHV HQ RFDVLRQHV OODPDGDV cajas GHEHQ HVWDEOHFHUVH GH PRGR TXH QR VH WUDVODSHQ \ GH PRGR TXH FDGD YDORU GH GDWR SHUWHQH]FD H[DFWDPHQWH D XQD FODVH 3DUD ORV HMHUFLFLRV RIUHFLGRV HQ HVWH WH[WR GH D FODVHV HV OR PiV GHVHDEOH SRUTXH WRGDV ODV PXHVWUDV FRQWLHQHQ PHQRV GH YDORUHV GH GDWRV /D UDt] FXDGUDGD GH n HV XQ OLQHDPLHQWR UD]RQDEOH SDUD HO Q~PHUR GH FODVHV FRQ PXHVWUDV FRQ PHQRV GH YDORUHV GH GDWRV
8VD XQ VLVWHPD TXH VDTXH YHQWDMD GH DOJ~Q SDWUyQ SDUD JDUDQWL]DU SUHFLVLyQ &XDQGR VHD FRQYHQLHQWH FRQ IUHFXHQFLD HV YHQWDMRVR XQ DQFKR GH FODVH SDU 8QD YH] HVWDEOHFLGDV ODV FODVHV HV QHFHVDULR RUGHQDU ORV GDWRV HQ GLFKDV FODVHV (O PpWRGR XWLOL]DGR SDUD RUGHQDU GHSHQGHUi GHO IRUPDWR DFWXDO GH ORV GDWRV VL ORV GDWRV HVWiQ FODVLĂ&#x20AC;FDGRV ODV IUHFXHQFLDV SXHGHQ FRQWDUVH VL ORV GDWRV QR HVWiQ FODVLĂ&#x20AC;FDGRV cuenta ORV GDWRV SDUD HQFRQWUDU ORV Q~PHURV GH IUHFXHQFLD &XDQGR FODVLĂ&#x20AC;TXHV GDWRV HV ~WLO XVDU XQ FXDGUR HVWiQGDU YpDVH OD WDEOD TABLA 2.7 Cuadro estĂĄndar para distribuciĂłn de frecuencias NĂşmero de clase 1 2 3 4 5 6 7
Cuentas de clase || || ||||| || ||||| ||||| ||| ||||| ||||| | ||||| ||||| | ||||
LĂmites 35 45 55 65 75 85 95
< 45 < 55 < 65 < 75 < 85 < 95 ) 105
Frecuencia 2 2 7 13 11 11 4 50
Notas: 6L ORV GDWRV HVWiQ FODVLĂ&#x20AC;FDGRV HQ IRUPD GH OLVWD JUiĂ&#x20AC;FD GH SXQWRV R WDOOR \ KRMDV \D QR HV QHFHVDULR FODVLĂ&#x20AC;FDU VyOR FXHQWD ORV GDWRV TXH SHUWHQHFHQ D FDGD FODVH 6L ORV GDWRV QR HVWiQ FODVLĂ&#x20AC;FDGRV WHQ FXLGDGR FRQ WX FODVLĂ&#x20AC;FDFLyQ \ FRQWHR /D IUHFXHQFLD f SDUD FDGD FODVH HV HO Q~PHUR GH SLH]DV GH GDWRV TXH SHUWHQHFHQ D GLFKD FODVH /D VXPD GH ODV IUHFXHQFLDV GHEH VHU LJXDO DO Q~PHUR GH SLH]DV GH GDWRV n n = f (VWD VXPD VLUYH FRPR XQD EXHQD FRPSUREDFLyQ
8 340
CapĂtulo 00
CapĂtulo tĂtulo
IntroducciĂłn a la inferencia estadĂstica 8.1 La naturaleza de la estimaciĂłn Dos formas de estimaciĂłn: estimaciĂłn puntual y estimaciĂłn por intervalo
8.2 EstimaciĂłn de media ( conocida) CĂłmo usar la DMMM y el TCL para estimar la media poblacional
8.3 La naturaleza de la prueba de hipĂłtesis Las pruebas comienzan con una hipĂłtesis nula y una hipĂłtesis alternativa
8.4 Prueba de hipĂłtesis de media ( conocida): Un mĂŠtodo de valor de probabilidad
CĂłmo usar la capacidad de la computadora para completar el proceso de toma de decisiones
Š 2010 Image Source/Jupiterimages Corporation
8.5 Prueba de hipĂłtesis de media ( conocida): Un mĂŠtodo clĂĄsico (opcional) CĂłmo usar valores crĂticos para la toma de decisiones
8.1 La naturaleza de la estimaciĂłn ÂżSomos mĂĄs altos o mĂĄs bajos ahora? La estatura promedio de un inglĂŠs del siglo XVII era de aproximadamente 5 pies 6 pulgadas. Para las inglesas del siglo XVII, era de aproximadamente 5 pies 12 pulgada. Aunque las estaturas promedio en Inglaterra virtualmente permanecieron invariables en los siglos XVII y XVIII, los colonizadores americanos crecieron mĂĄs altos. Los promedios para los estadounidenses modernos estĂĄn apenas por arriba de 5 pies 9 pulgadas para hombres y aproximadamente 5 pies 3 34 pulgadas para mujeres. Fuente: http://www.plimoth.org/
El Centro Nacional para EstadĂsticas de Salud (NCHS) proporciona informaciĂłn estadĂstica que guiarĂĄ acciones y polĂticas para mejorar la salud del pueblo estadounidense. Datos recientes del NCHS dan la estatura promedio de las mujeres en Estados Unidos en 63.7 pulgadas, con una desviaciĂłn estĂĄndar de 2.75 pulgadas. SupĂłn que se recopila una muestra de estaturas de 50 mujeres profesionales de la salud estadounidenses seleccionadas al azar. ÂżEsperas que la media de esta muestra aleatoria de 50 estaturas de mujeres sea exactamente igual a la media poblacional de 63.7 pulgadas dadas por NCHS (una pregunta de estimaciĂłn " 6L OD PHGLD PXHVWUDO HV PD\RU TXH SXOJDGDV ¢HOOR VLJQLĂ&#x20AC;FD TXH ODV SURIHVLRQDOHV GH OD VDOXG mujeres sean mĂĄs altas que las mujeres estadounidenses (una pregunta de prueba de hipĂłtesis)? Ă&#x2030;stas son preguntas inferenciales respecto a si â&#x20AC;&#x153;Âżsomos mĂĄs altos o mĂĄs bajos ahora?â&#x20AC;?. Como recordarĂĄs, el teorema central del lĂmite te da cierta informaciĂłn muy importante acerca de la GLVWULEXFLyQ PXHVWUDO GH ODV PHGLDV PXHVWUDOHV '000 (VSHFtĂ&#x20AC;FDPHQWH DĂ&#x20AC;UPD TXH HQ PXFKRV FDVRV UHDOLVWDV FXDQGR OD PXHVWUD DOHDWRULD HV VXĂ&#x20AC;FLHQWHPHQWH JUDQGH XQD GLVWULEXFLyQ GH PHGLDV PXHVWUDOHV tiene una distribuciĂłn normal o aproximadamente normal en torno a la media de la poblaciĂłn. Con esta informaciĂłn es posible hacer enunciados de probabilidad acerca de la posibilidad de que ocurran ciertos valores de medias muestrales cuando las muestras se extraen de una poblaciĂłn con una media conocida y una desviaciĂłn estĂĄndar conocida. Ahora estĂĄs listo para dar un giro a esta situaciĂłn hacia el caso donde la media poblacional no es conocida. ExtraerĂĄs una muestra, calcularĂĄs su valor medio y luego harĂĄs una inferencia acerca del valor de la media poblacional con base en el valor de la media muestral. El objetivo de las estadĂsticas inferenciales es usar la informaciĂłn contenida en los datos muestrales para aumentar el conocimiento de la poblaciĂłn muestreada. AprenderĂĄs acerca de la realizaciĂłn de dos
SecciĂłn 8.1
La naturaleza de la estimaciĂłn
341
tipos de inferencias: 1) estimaciĂłn del valor de un parĂĄmetro poblacional y 2) poner a prueba la hipĂłtesis. La distribuciĂłn muestral de medias muestrales (DMMM) es la clave SDUD KDFHU GLFKDV LQIHUHQFLDV FRPR VH PXHVWUD HQ OD Ă&#x20AC; JXUD FIGURA 8.1 DĂłnde entra la distribuciĂłn muestral en el proceso estadĂstico El proceso estadĂstico
EstadĂsticos muestrales GrĂĄďŹ ca:
RecolecciĂłn de muestra aleatoria
Muestra Datos recolectados
AnĂĄlisis de datos muestrales
Frecuencia
PoblaciĂłn a estudiar ParĂĄmetro de interĂŠs,
NumĂŠrico:
Usa el estadĂstico muestral x (y la distribuciĂłn muestral) para hacer una inferencia acerca de la media poblacional, .
ÂżSABĂ?AS QUE...? Adictos al chocolate El chocolate se obtiene del ĂĄrbol de cacao. Cada fruto con forma de melĂłn contiene de 20 a 50 granos. Para elaborar una libra de chocolate se necesitan aproximadamente 400 granos. Estados Unidos es un paĂs de adictos al chocolate: los estadounidenses consumen 11.6 lb por persona cada aĂąo.
En este capĂtulo tratarĂĄs con preguntas acerca de la media poblacional usando dos mĂŠtodos que suponen que el valor de la desviaciĂłn estĂĄndar poblacional es una cantidad conocida. Esta suposiciĂłn rara vez se observa en problemas de la vida real, pero serĂĄ el primer contacto con tĂŠcnicas de inferencia mucho mĂĄs simples. A partir del concepto de estimaciĂłn, considera una compaĂąĂa que fabrica remaches para usar en la construcciĂłn de aeronaves. Una caracterĂstica de importancia extrema es la â&#x20AC;&#x153;resistencia al corteâ&#x20AC;? de cada remache. Los ingenieros de la compaĂąĂa deben monitorear la producciĂłn para asegurarse de que la resistencia al corte de los remaches satisface las HVSHFLĂ&#x20AC; FDFLRQHV UHTXHULGDV 3DUD ORJUDU HVWR WRPDQ XQD PXHVWUD \ GHWHUPLQDQ OD UHVLVWHQFLD al corte media de la muestra. Con base en esta informaciĂłn muestral, la compaĂąĂa puede estimar la resistencia al corte media para todos los remaches que fabrica. Se selecciona una muestra de 36 remaches y cada remache se pone a prueba para resistencia al corte. La media muestral resultante es x = 924.23 lb. Con base en esta muestra, se dice: â&#x20AC;&#x153;se considera que la resistencia al corte media de todos los remaches es de 924.23 lbâ&#x20AC;?. Notas: 1. La resistencia al corte es la fuerza requerida para romper un material en una acciĂłn â&#x20AC;&#x153;de corteâ&#x20AC;?. Obviamente, el fabricante no pondrĂĄ a prueba todos los remaches, porque la prueba destruye cada remache puesto a prueba. Por tanto, se ponen a prueba muestras y la informaciĂłn acerca de cada muestra debe usarse para realizar inferencias acerca de la poblaciĂłn de todos los remaches. $ OR ODUJR GHO FDStWXOR WUDWDUiV OD GHVYLDFLyQ HVWiQGDU , como una cantidad conocida o dada y te concentrarĂĄs en el aprendizaje de los procedimientos para realizar inferencias estadĂsticas en torno a la media poblacional, . En consecuencia, para continuar con la explicaciĂłn de las inferencias estadĂsticas, supondrĂĄs SDUD ORV UHPDFKHV HVSHFtĂ&#x20AC; FRV GHVFULWRV HQ HO HMHPSOR
342
CapĂtulo 8
IntroducciĂłn a la inferencia estadĂstica
EstimaciĂłn puntual para un parĂĄmetro Un solo nĂşmero designado para estimar un parĂĄmetro cuantitativo de una poblaciĂłn, por lo general el valor del correspondiente estadĂstico muestral. Esto es: la media muestral, x, es la estimaciĂłn puntual (valor de un solo nĂşmero) para la media, , de la poblaciĂłn muestreada. Para el ejemplo de los remaches, 924.23 es la estimaciĂłn puntual para , la resistencia al corte media de todos los remaches. La calidad de esta estimaciĂłn puntual debe cuestionarse. ÂżLa estimaciĂłn es exacta? ÂżEs probable que la estimaciĂłn sea alta? ÂżO baja? ÂżOtra muestra producirĂa el mismo resultado? ÂżOtra muestra producirĂa una estimaciĂłn casi del mismo valor? ÂżO un valor que sea diferente? ÂżCĂłmo se miden â&#x20AC;&#x153;casi igualâ&#x20AC;? o â&#x20AC;&#x153;muy diferenteâ&#x20AC;??, la calidad de un procedimiento de estimaciĂłn (o mĂŠtodo) se mejora enormemente si el estadĂstico muestral es tanto menos variable como sin sesgo. La variabilidad de un estadĂstico se mide por el error estĂĄndar de su distribuciĂłn muestral. La media muestral puede hacerse menos variable al reducir su error estĂĄndar, /ĺ&#x2020;Ş n . Ello requiere usar una muestra mĂĄs grande porque, conforme n aumenta, el error estĂĄndar disminuye. EstadĂstico sin sesgo EstadĂstico muestral cuya distribuciĂłn muestral tiene un valor medio igual al valor del parĂĄmetro poblacional a estimar. Un estadĂstico que no es no sesgado es un estadĂstico sesgado. /D Ă&#x20AC;JXUD LOXVWUD HO FRQFHSWR GH QR VHVJDGR \ HO HIHFWR GH YDULDELOLGDG VREUH OD estimaciĂłn puntual. El valor A es el parĂĄmetro a estimar y los puntos representan posibles valores de estadĂstico muestral a partir de la distribuciĂłn muestral del estadĂstico. Si A representa la verdadera media poblacional, , entonces los puntos representan posibles medias muestrales de la distribuciĂłn muestral x. FIGURA 8.2 Efectos de variabilidad y sesgo No sesgado (estimaciĂłn en el objetivo)
Sesgo negativo (subestimaciĂłn) VariaciĂłn alta
(a)
(b)
A A VariaciĂłn baja
(d)
(c)
A A (e)
A A
Sesgo positivo (sobrestimaciĂłn)
A A (f)
A A
A A
/DV Ă&#x20AC;JXUDV D F G \ I PXHVWUDQ HVWDGtVWLFRV VHVJDGRV D \ G PXHVWUDQ GLVWULEXciones muestrales cuyos valores medios son menores que el valor del parĂĄmetro, mientras que c) y f) muestran distribuciones muestrales cuyos valores medios son mayores que el SDUiPHWUR /DV Ă&#x20AC;JXUDV E \ H PXHVWUDQ GLVWULEXFLRQHV PXHVWUDOHV TXH SDUHFHQ WHQHU XQ YDORU PHGLR LJXDO DO YDORU GHO SDUiPHWUR SRU WDQWR QR VRQ VHVJDGDV /DV Ă&#x20AC;JXUDV D E y c) muestran mĂĄs variabilidad, mientras que d), e) y f) muestran menos variabilidad en las distribuciones muestrales. El diagrama e) representa la mejor situaciĂłn, un estimador que no es sesgado (en el objetivo) y tiene baja variabilidad (todos los valores cercanos al objetivo).
SecciĂłn 8.1
343
La naturaleza de la estimaciĂłn
La media muestral, x, es un estadĂstico no sesgado porque el valor medio de la distribuciĂłn muestral de medias muestrales, x, es igual a la media poblacional, . (Recuerda que la distribuciĂłn muestral de las medias muestrales tiene una media x = .) Por tanto, el estadĂstico muestral x = 924.23 es una estimaciĂłn puntual no sesgada para la resistencia media de todos los remaches a fabricar en el ejemplo. Las medias muestrales varĂan en valor y forman una distribuciĂłn muestral en la que no todas las muestras resulten en valores x iguales a la media poblacional. Por tanto, no debes esperar que esta muestra de 36 remaches produzca una estimaciĂłn puntual (media muestral) que sea exactamente igual a la media de la poblaciĂłn muestreada. Sin embargo, debes esperar que la estimaciĂłn puntual estĂŠ bastante cerca en valor a la media poblacional. La distribuciĂłn muestral de medias muestrales (DMMM) y el teorema central del lĂmite (TCL) proporcionan la informaciĂłn necesaria para describir cuĂĄn cerca la estimaciĂłn puntual, x, se espera que estĂŠ de la media poblacional, . Recuerda que aproximadamente 95% de una distribuciĂłn normal estĂĄ dentro de 2 desviaciones estĂĄndar de la media y que el TCL describe la distribuciĂłn muestral de medias PXHVWUDOHV FRPR FDVL QRUPDOHV FXDQGR ODV PXHVWUDV VRQ VXĂ&#x20AC;FLHQWHPHQWH JUDQGHV /DV PXHVtras de tamaĂąo 36 de las poblaciones de variables como las resistencias de remaches por lo JHQHUDO VH FRQVLGHUDQ VXĂ&#x20AC;FLHQWHPHQWH JUDQGHV 3RU WDQWR GHEHV DQWLFLSDU TXH GH WRGDV las muestras aleatorias seleccionadas de una poblaciĂłn con media desconocida y desviaciĂłn estĂĄndar WHQGUiQ PHGLDV x entre PTI = 18 se dio en la nota 2 de la pĂĄgina 341.
â&#x20AC;&#x201C; 2( x) y â&#x20AC;&#x201C;2 ĺ&#x2020;Şn
+ 2( x)
ĺ&#x2020;˘ ĺ&#x2020;Ł
y
+2 ĺ&#x2020;Şn
ĺ&#x2020;˘ ĺ&#x2020;Ł
y
+ 2 ĺ&#x2020;Ş36
â&#x20AC;&#x201C; 2 ĺ&#x2020;Ş36
â&#x20AC;&#x201C;6 y
ĺ&#x2020;˘ ĺ&#x2020;Ł ĺ&#x2020;˘ ĺ&#x2020;Ł
+6
Esto sugiere que 95% de todas las muestras aleatorias de tamaĂąo 36 seleccionadas de la poblaciĂłn de remaches debe tener una media x entre â&#x20AC;&#x201C; 6 y /D Ă&#x20AC;JXUD PXHVWUD 95% medio de la distribuciĂłn, las cotas del intervalo que cubren 95% y la media . FIGURA 8.3 DistribuciĂłn muestral de x, desconocida â?´xx = 3
o expresado algebraicamente P( â&#x20AC;&#x201C; 6 < x < + 6) = 0.95
95%
â&#x20AC;&#x201C;6
+6
x
Ahora reĂşne toda esta informaciĂłn en la forma de un LQWHUYDOR GH FRQĂ&#x20AC;DQ]D. EstimaciĂłn por intervalo Un intervalo acotado por dos valores y usado para estimar el valor de un parĂĄmetro poblacional. Los valores que acotan este intervalo son estadĂsticos calculados a partir de la muestra que se usarĂĄ como la base para la estimaciĂłn. Nivel de conďŹ anza 1 â&#x20AC;&#x201C; Parte de todas las estimaciones de intervalo que incluyen el parĂĄmetro a estimar. Intervalo de conďŹ anza EstimaciĂłn por intervalo con un nivel especĂďŹ co de conďŹ anza.
344
CapĂtulo 8
IntroducciĂłn a la inferencia estadĂstica
[EX00-000] LGHQWLĂ&#x20AC;FD HO QRPEUH GH DUFKLYR GH XQD EDVH GH GDWRV HQ OtQHD GH XQ HMHUFLFLR GLVSRQLEOH D WUDYpV GH FHQJDJHEUDLQ FRP
3DUD FRQVWUXLU HO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D XVDUiV OD HVWLPDFLyQ SXQWXDO x como el valor central de un intervalo en gran forma como usaste la media como el valor central para encontrar el intervalo que captura el 95% medio de la distribuciĂłn x HQ OD Ă&#x20AC;JXUD Para el ejemplo de remaches, es posible encontrar las cotas a un intervalo con centro en x. x â&#x20AC;&#x201C; 2( x) a x + 2( x) 924.23 â&#x20AC;&#x201C; 6 a 924.23 + 6 (O LQWHUYDOR UHVXOWDQWH HV D (O QLYHO GH FRQĂ&#x20AC;DQ]D DVLJQDGR D HVWH LQWHUYDOR HV DSUR[LPDGDPHQWH R /DV FRWDV del intervalo son dos mĂşltiplos (z = 2.0) del error estĂĄndar de la media muestral y al obserYDU OD WDEOD GHO DSpQGLFH % SXHGHV GHWHUPLQDU FRQ PiV SUHFLVLyQ HO QLYHO GH FRQĂ&#x20AC;DQ]D como 0.9545. Al juntar toda esta informaciĂłn, la estimaciĂłn se expresa como un intervalo GH FRQĂ&#x20AC;DQ]D 918.23 a 930.23 HV HO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D GH SDUD OD UHVLVWHQFLD al corte medio de los remaches. O, en forma abreviada: 918.23 a 930.23, el intervalo de FRQĂ&#x20AC;DQ]D GH SDUD .
EJEMPLO APLICADO 8.1 â&#x20AC;&#x153;EL VIEJO FIELâ&#x20AC;? DEL PARQUE YELLOWSTONE
PTI Visita la WebCam de â&#x20AC;&#x153;El Viejo Fielâ&#x20AC;?. ÂżCuĂĄndo se predice que ocurra la siguiente erupciĂłn?
Bienvenido a la WebCam de â&#x20AC;&#x153;El Viejo Fielâ&#x20AC;?. Las predicciones del momento de la siguiente erupciĂłn de â&#x20AC;&#x153;El Viejo Fielâ&#x20AC;? las hacen los guardianes del parque mediante una fĂłrmula que toma en cuenta la duraciĂłn de la erupciĂłn anterior. La fĂłrmula usada resulta ser precisa, mĂĄs o menos 10 minutos, 90% de las veces. A las 3:05 p.m. del 14 de agosto de 2009, la predicciĂłn del momento de la siguiente erupciĂłn fue:
ÂżSABĂ?AS QUE...? Yellowstone contiene aproximadamente la mitad de las particularidades hidrotĂŠrmicas del mundo. En el parque existen mĂĄs de 10 000 particularidades hidrotĂŠrmicas, incluidos mĂĄs de 300 gĂŠiseres.
Siguiente predicciĂłn: 3:19 p.m. Âą10 min. Fuente: http://www.nps.gov/yell/oldfaithfulcam.htm
Observa el momento en que se tomĂł la fotografĂa: 3:25:19 p.m. ÂĄJusto a tiempo!
Š SCPhotos/Alamy
EJERCICIOS SECCIĂ&#x201C;N 8.1 8.1 [EX08-001] Una muestra aleatoria de 50 mujeres estadounidenses profesionales de la salud produjo los siguientes datos de estatura. 65 63 70 65 64
66 62 63 69 66
64 63 63 64 65
67 64 68 69 69
59 72 58 62 67
69 66 60 58 67
66 65 64 66 68
69 64 66 68 62
64 67 64 59 70
62 68 62 56 62
a. ÂżQuĂŠ poblaciĂłn se muestreĂł para obtener los datos de estatura que se mencionan arriba? b. Describe los datos muestrales usando la media y la des-
viaciĂłn estĂĄndar, mĂĄs algĂşn otro estadĂstico numĂŠrico que ayude a describir la muestra. c. Construye un histograma y comenta acerca de la forma GH OD GLVWULEXFLyQ &RQVWUX\H FXDOTXLHU RWUR JUiĂ&#x20AC;FR TXH ayude a describir la muestra. d. Usa los estadĂsticos que encontraste en los incisos b y c, estima la estatura media de todas las mujeres estadounidenses profesionales de la salud usando un solo valor. Usa un intervalo. e. ÂżQuĂŠ calidad de la estimaciĂłn por intervalos mejorarĂa la valĂa del intervalo?
SecciĂłn 8.1
345
La naturaleza de la estimaciĂłn
8.2 &RQ UHIHUHQFLD DO HMHUFLFLR a. ÂżCĂłmo la distribuciĂłn de los datos de estatura muestrales de la p. 344 se relaciona con: 1) la distribuciĂłn de la poblaciĂłn? 2) ÂżLa distribuciĂłn muestral de las medias muestrales?
8.6 [EX08-006] El nĂşmero de camiones propiedad del departamento de bomberos se obtuvo de una muestra aleatoria WRPDGD GH ORV SHUĂ&#x20AC;OHV GH ORV GHSDUWDPHQWRV GH ERPEHURV D travĂŠs de Estados Unidos (Firehouse/junio de 2003). 29
8
7
33 21 26 6 11 4 54 7
4
b. Con las tĂŠcnicas del capĂtulo 7, encuentra los lĂmites que acotarĂan 90% medio de la distribuciĂłn muestral de medias muestrales para muestras de tamaĂąo 50 seleccionadas al azar de la poblaciĂłn de estaturas de mujeres con una media conocida de 63.7 pulgadas y una desviaciĂłn estĂĄndar de 2.75 pulgadas.
Usa los datos para encontrar una estimaciĂłn puntual para cada uno de los siguientes parĂĄmetros:
F (Q HO KLVWRJUDPD GLEXMDGR HQ HO HMHUFLFLR 'LEXMD una recta vertical a la media poblacional de 63.7. 2) Dibuja un segmento de recta horizontal que muestre el intervalo que encontraste en el inciso b. ÂżLa media muestral TXH HQFRQWUDVWH HQ HO HMHUFLFLR E FDH HQ HO LQWHUYDOR" 5HVSRQGH Vt R QR \ H[SOLFD TXp VLJQLĂ&#x20AC;FD
8.7 En cada uno de los siguientes diagramas, I y II representan distribuciones muestrales de dos estadĂsticos que pueden XVDUVH SDUD HVWLPDU XQ SDUiPHWUR (Q FDGD FDVR LGHQWLĂ&#x20AC;FD HO estadĂstico que consideres que serĂa el mejor estimador, o ninguno, y describe por quĂŠ es ĂŠsa tu elecciĂłn.
d. Usa las tĂŠcnicas del capĂtulo 7 y encuentra P(x Â&#x2022; para una muestra aleatoria de 50, extraĂda de una poblaciĂłn con una media conocida de 63.7 pulgadas y una desYLDFLyQ HVWiQGDU GH SXOJDGDV ([SOLFD HO VLJQLĂ&#x20AC;FDGR del valor resultante. e. ÂżLa muestra de 50 valores de datos de estatura parecen pertenecer a la poblaciĂłn descrita por el NCHS? Explica.
a. Media b. Varianza c. DesviaciĂłn estĂĄndar
a.
I
II
b.
f. Revisa las respuestas anteriores y considera cĂłmo pueden usarse la DMMM y el TCL del capĂtulo 7 para hacer un mejoramiento en la estimaciĂłn por intervalos. 8.3 Explica la diferencia entre una estimaciĂłn puntual y una estimaciĂłn por intervalos. 8.4 ,GHQWLĂ&#x20AC;FD FDGD YDORU QXPpULFR SRU ´QRPEUHÂľ SRU HMHPplo, media, varianza) y por sĂmbolo (por ejemplo, x): a. La estatura media de 24 chicas de secundaria es 4 pies 11 pulgadas.
I
II
c. I II
b. La desviaciĂłn estĂĄndar para puntajes CI es 16. F /D YDULDQ]D HQWUH ODV FDOLĂ&#x20AC;FDFLRQHV GHO H[DPHQ GH OD semana pasada fue 190. d. La estatura media de todos los cadetes que alguna vez ingresaron a West Point es 69 pulgadas.
8.8 SupĂłn que existen dos estadĂsticos que servirĂĄn como estimador para el mismo parĂĄmetro. Uno de ellos es sesgado y el otro es no sesgado.
8.5 [EX08-005] Se obtuvo una muestra aleatoria de la cantidad pagada (en dĂłlares) para un taxi desde el centro hasta el aeropuerto:
a. Si todo se mantiene igual, explica por quĂŠ usualmente preferirĂas un estimador no sesgado a un estimador sesgado.
15 19 17 23 21 17 16 18 12 18 20 22 15 18 20
Usa los datos para encontrar una estimaciĂłn puntual para cada uno de los siguientes parĂĄmetros. a. Media b. Varianza c. DesviaciĂłn estĂĄndar
b. Si un estadĂstico es no sesgado, Âżello asegura que sea un buen estimador? ÂżPor quĂŠ sĂ o por quĂŠ no? ÂżQuĂŠ otras consideraciones deben tomarse en cuenta? c. Describe una situaciĂłn que pueda ocurrir en la que el estadĂstico sesgado pueda ser una mejor elecciĂłn como estimador que el estadĂstico no sesgado.
346
CapĂtulo 8
IntroducciĂłn a la inferencia estadĂstica
8.9 El uso de una muestra tremendamente grande no garantiza la calidad en un estimador. ÂżQuĂŠ problemas anticipas con muestras muy grandes? 8.10 Ser no sesgadas y tener una variabilidad pequeĂąa son dos caracterĂsticas deseables de un estadĂstico si se usarĂĄ como estimador. Describe cĂłmo la DMMM aborda ambas propiedades cuando se estima la media de una poblaciĂłn.
a. x ² Â&#x2021; x a x Â&#x2021; x b. x â&#x20AC;&#x201C; 1.44 Â&#x2021; x a x + 1.44 Â&#x2021; x c. x â&#x20AC;&#x201C; 1.96 Â&#x2021; x a x + 1.96 Â&#x2021; x d. x â&#x20AC;&#x201C; 2.33 Â&#x2021; x a x + 2.33 Â&#x2021; x
8.16 (QFXHQWUD HO QLYHO GH FRQĂ&#x20AC;DQ]D DVLJQDGR D XQD HVWLPDciĂłn por intervalos de la media formada usando los siguientes 8.11 /D 2Ă&#x20AC;FLQD GH &HQVRV GH (VWDGRV 8QLGRV UHSRUWD TXH OD intervalos: media estimada del ingreso familiar estadounidense de parejas a. x â&#x20AC;&#x201C; 1.15 Â&#x2021; x a x + 1.15 Â&#x2021; x FDVDGDV HV Â&#x201C; /D RĂ&#x20AC;FLQD GHVFULEH HO PDUJHQ GH error como uno que ofrece una probabilidad de 90% de que el b. x â&#x20AC;&#x201C; 1.65 Â&#x2021; x a x + 1.65 Â&#x2021; x LQWHUYDOR GHĂ&#x20AC;QLGR SRU OD HVWLPDFLyQ PHQRV HO PDUJHQ GH HUURU c. x â&#x20AC;&#x201C; 2.17 Â&#x2021; x a x + 2.17 Â&#x2021; x \ OD HVWLPDFLyQ PiV HO PDUJHQ GH HUURU ODV FRWDV GH FRQĂ&#x20AC;DQ]D d. x ² Â&#x2021; x a x Â&#x2021; x inferior y superior) contienen el valor verdadero. Fuente: U.S. Census Bureau, 2005-2007 American Community Survey
a. ÂżCuĂĄl es la poblaciĂłn y la variable de interĂŠs? b. ÂżQuĂŠ parĂĄmetro se estima? ÂżCuĂĄl es su valor estimado? c. ÂżCĂłmo se relaciona el margen de error con el error mĂĄximo de estimaciĂłn? d. ÂżQuĂŠ valor se reporta como el margen de error? H ¢4Xp QLYHO GH FRQĂ&#x20AC;DQ]D VH UHSRUWD" I (QFXHQWUD HO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D \ HQXQFLD FRQ H[DFWLtud quĂŠ representa. 8.12 Reportes del consumidor El Centro Nacional de InvestigaciĂłn reportĂł que 76% de las mujeres responde â&#x20AC;&#x153;diariamente o con mucha frecuenciaâ&#x20AC;? cuando se les pregunta: Âżcon quĂŠ frecuencia hace su cama? Como nota al pie se incluye esta inforPDFLyQ DGLFLRQDO PDUJHQ GH HUURU Â&#x201C; SXQWRV SRUFHQWXDOHV a. ÂżCuĂĄl es la poblaciĂłn y la variable de interĂŠs? b. ÂżQuĂŠ parĂĄmetro se estima? ÂżCuĂĄl es su valor estimado? c. ÂżQuĂŠ valor se reporta como el margen de error? d. Encuentra el intervalo y enuncia con exactitud quĂŠ representa. e. ÂżQuĂŠ informaciĂłn adicional desearĂas para saber acerca GH HVWH LQWHUYDOR GH FRQĂ&#x20AC;DQ]D" 8.13 Explica por quĂŠ el error estĂĄndar de las medias muestrales es 3 para el ejemplo de los remaches de la pĂĄgina 343. 8.14 D 9HULĂ&#x20AC;FD TXH XQ QLYHO GH FRQĂ&#x20AC;DQ]D GH UHTXLHUH un intervalo de 1.96 desviaciones estĂĄndar. E 9HULĂ&#x20AC;FD TXH HO QLYHO GH FRQĂ&#x20AC;DQ]D SDUD XQ LQWHUYDOR de 2 desviaciones estĂĄndar es 95.45%. 8.15 (QFXHQWUD HO QLYHO GH FRQĂ&#x20AC;DQ]D DVLJQDGR D XQD HVWLPDciĂłn por intervalos de la media formada usando los siguientes intervalos:
8.17 La Universidad de Bristol, en el Reino Unido, llevĂł a cabo el â&#x20AC;&#x153;Requerimiento poblacional para cirugĂa primaria de reemplazo de cadera: un estudio transversalâ&#x20AC;?. Los hallazgos resultaron en el siguiente enunciado: â&#x20AC;&#x153;La prevalencia de dolor de cadera autorreportado fue de 107 por 1 000 (95% IC 101 SDUD KRPEUHV \ SRU SDUD PXMHUHVÂľ D ([SOLFD HO VLJQLĂ&#x20AC;FDGR GHO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D ,& 101-113. E (QFXHQWUD HO HUURU HVWiQGDU SDUD HO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D de 95% para dolor de cadera autorreportado de hombres. c. Si supones que los datos de las mujeres tambiĂŠn tienen XQ LQWHUYDOR GH FRQĂ&#x20AC;DQ]D GH HQFXHQWUD HO HUURU estĂĄndar. 8.18 Una muestra de 25 de 174 proyectos patrocinados revelĂł que 19 estaban valuados en $17 320 cada uno y 6 estaban valuados en $20 200 cada uno. A partir de los datos muestrales, estima el valor total del patrocinio para todos los proyectos. 8.19 Con la informaciĂłn de erupciones de â&#x20AC;&#x153;El Viejo Fielâ&#x20AC;? del HMHPSOR DSOLFDGR HQ OD SiJLQD D ¢4Xp VLJQLĂ&#x20AC;FD ´ S P Â&#x201C; PLQÂľ" ([SOLFD b. ÂżEsta erupciĂłn ocurriĂł durante el intervalo de tiempo predicho? F ¢4Xp VLJQLĂ&#x20AC;FD ´ GH ODV YHFHVÂľ" ([SOLFD 8.20 Un reclutador estima que, si te contrata para trabajar en su compaĂąĂa y laboras toda una semana en el puesto de representante de ventas comisionado te ofrece que ganarĂĄs â&#x20AC;&#x153;$525 PiV R PHQRV GH ODV YHFHVÂľ < DJUHJD ´£WRGR GHpende de ti!â&#x20AC;?. D ¢4Xp VLJQLĂ&#x20AC;FD ´ PiV R PHQRV Âľ" E ¢4Xp VLJQLĂ&#x20AC;FD ´ GH ODV YHFHVÂľ" c. Si ganas $300 al $10 mĂĄs cercano la mayorĂa de las semanas, Âżte habrĂĄ dicho la verdad? Explica.
Secciรณn 8.2
Estimaciรณn de media ( conocida)
347
8.2 Estimaciรณn de media ( conocida) (Q OD VHFFLyQ VH VRQGHDURQ ODV LGHDV EiVLFDV GH OD HVWLPDFLyQ HVWLPDFLyQ SXQWXDO HV WLPDFLyQ SRU LQWHUYDORV QLYHO GH FRQร DQ]D H LQWHUYDOR GH FRQร DQ]D 'LFKDV LGHDV EiVLFDV estรกn interrelacionadas y se usan a lo largo de la estadรญstica cuando una inferencia necesita una estimaciรณn. En esta secciรณn se formaliza el proceso de estimaciรณn por intervalos como se aplica a la estimaciรณn de la media poblacional con base en una muestra aleatoria bajo la restricciรณn de que la desviaciรณn estรกndar poblacional es un valor conocido. La distribuciรณn muestral de las medias muestrales y el TCL ofrecen la informaciรณn que necesitas para garantizar que se satisfacen las suposiciones necesarias para estimar una media poblacional.
La suposiciรณn para estimar la media con el uso de una conocida La distribuciรณn muestral de x tiene una distribuciรณn normal.
Nota: la palabra suposiciรณn HV XQD GHQRPLQDFLyQ XQ SRFR HTXLYRFDGD 1R VLJQLร FD TXH โ suponesโ que algo es la situaciรณn y continรบas, sino mรกs bien que debes asegurarte de que existen las condiciones expresadas por las suposiciones antes de aplicar un mรฉtodo estadรญstico particular. La informaciรณn necesaria para asegurarte de que esta suposiciรณn (o condiciรณn) se satisface estรก contenida en la DMMM y en el TCL (consulta el capรญtulo 7, pp. 319-320):
La distribuciรณn muestral de medias muestrales x se distribuye en torno a una media igual a , con un error estรกndar igual a /ๅ ช n y 1) si la poblaciรณn muestreada al azar tiene distribuciรณn normal, entonces x tiene distribu-
ciรณn normal para todos los tamaรฑos de muestra, o 2) si la poblaciรณn muestreada al azar no tiene distribuciรณn normal, entonces x tiene distribuciรณn aproximadamente normal para tamaรฑos de PXHVWUD VXร FLHQWHPHQWH JUDQGHV
PTI Si las suposiciones no se satisfacen para estimar la media con una conocida, muy probablemente el nivel de con๏ฌ anza serรก mรกs bajo que lo enunciado.
PTI Debes buscar la ayuda de un estadรญstico profesional cuando tratas con datos extremadamente sesgados.
Por tanto, es posible satisfacer la suposiciรณn requerida al 1) saber que la poblaciรณn muestreada tiene distribuciรณn normal o 2) al usar una muestra aleatoria que contenga una FDQWLGDG VXร FLHQWHPHQWH JUDQGH GH GDWRV /D SULPHUD SRVLELOLGDG HV REYLD 2 VDEHV OR VX ร FLHQWH DFHUFD GH OD SREODFLyQ SDUD VDEHU TXH WLHQH GLVWULEXFLyQ QRUPDO R QR OR VDEHV /D segunda forma de satisfacer la suposiciรณn es aplicar el TCL. La inspecciรณn de varias preVHQWDFLRQHV JUiร FDV GH ORV GDWRV PXHVWUDOHV GHEH SURGXFLU XQ LQGLFLR GHO WLSR GH GLVWULEX ciรณn que posee la poblaciรณn. El TCL puede aplicarse a muestras mรกs pequeรฑas (por decir, n = 15 o mรกs grandes) cuando los datos proporcionan un fuerte indicio de una distribuciรณn unimodal que es aproximadamente simรฉtrica. Si existe evidencia de cierto sesgo en los datos, entonces el tamaรฑo de la muestra necesita ser mucho mรกs grande (acaso n ย Si los datos proporcionan evidencia de una distribuciรณn extremadamente sesgada o con IRUPD GH - HO 7&/ WRGDYtD VH DSOLFDUi VL OD PXHVWUD HV VXร FLHQWHPHQWH JUDQGH (Q FDVRV H[WUHPRV ยดVXร FLHQWHPHQWH JUDQGHยต SXHGH VHU LUUHDO R LPSUDFWLFDEOHPHQWH JUDQGH
348
CapĂtulo 8
IntroducciĂłn a la inferencia estadĂstica
Nota: QR H[LVWH XQD UHJOD LQĂ H[LEOH TXH GHĂ&#x20AC;QD ´VXĂ&#x20AC;FLHQWHPHQWH JUDQGHÂľ HO WDPDxR GH OD PXHVWUD TXH HV ´VXĂ&#x20AC;FLHQWHPHQWH JUDQGHÂľ YDUtD EDVWDQWH GH DFXHUGR FRQ OD GLVWULEXFLyQ GH la poblaciĂłn. (O LQWHUYDOR GH FRQĂ&#x20AC;DQ]D ² para la estimaciĂłn de la media se encuentra con la IyUPXOD Intervalo de conďŹ anza para media x â&#x20AC;&#x201C; z( /2) ĺ&#x2020;Şn
ĺ&#x2020;˘ ĺ&#x2020;Ł
1â&#x20AC;&#x201C;
â&#x20AC;&#x201C;z( /2)
/2
0
z( /2)
x + z( /2) ĺ&#x2020;Şn
ĺ&#x2020;˘ĺ&#x2020;Ł
(8.1)
+H DTXt ODV SDUWHV GH OD IyUPXOD GH LQWHUYDOR GH FRQĂ&#x20AC;DQ]D
FIGURA 8.4 CoeďŹ ciente de conďŹ anza z( /2)
/2
a
z
1. x HV OD HVWLPDFLyQ SXQWXDO \ HO SXQWR FHQWUDO GHO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D 2. z( /2) es el FRHĂ&#x20AC;FLHQWH GH FRQĂ&#x20AC;DQ]D. Es el nĂşmero de mĂşltiplos del error estĂĄndar necesario para formular una estimaciĂłn por intervalos del ancho correcto para tener un QLYHO GH FRQĂ&#x20AC;DQ]D GH ² /D Ă&#x20AC;JXUD PXHVWUD OD UHODFLyQ HQWUH HO QLYHO GH FRQĂ&#x20AC;DQ]D 1 â&#x20AC;&#x201C; (la parte media de la distribuciĂłn), /2 (el â&#x20AC;&#x153;ĂĄrea a la derechaâ&#x20AC;? usada con la notaFLyQ GH YDORU FUtWLFR \ HO FRHĂ&#x20AC;FLHQWH GH FRQĂ&#x20AC;DQ]D z( /2) (cuyo valor se encuentra con la tabla 4B del apĂŠndice B). Alfa, , es la primera letra del alfabeto griego y representa la parte asociada con las colas de la distribuciĂłn. 3. ĺ&#x2020;Şn es el error estĂĄndar de la media o la desviaciĂłn estĂĄndar de la distribuciĂłn muestral de medias muestrales. HV OD PLWDG GHO DQFKR GHO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D HO SURGXFWR GHO FRHĂ&#x20AC;FLHQWH 4. z( /2) ĺ&#x2020;Şn GH FRQĂ&#x20AC;DQ]D SRU HO HUURU HVWiQGDU \ VH OODPD error mĂĄximo de estimaciĂłn, E. se llama OtPLWH GH FRQĂ&#x20AC;DQ]D LQIHULRU (LCI) y x + z( /2) se llama 5. x â&#x20AC;&#x201C; z( /2) ĺ&#x2020;Şn ĺ&#x2020;Şn OtPLWH GH FRQĂ&#x20AC;DQ]D VXSHULRU /&6 SDUD HO LQWHUYDOR GH FRQĂ&#x20AC;DQ]D
ĺ&#x2020;˘ ĺ&#x2020;Ł
ĺ&#x2020;˘ ĺ&#x2020;Ł
PTI BĂĄsicamente, el intervalo de conďŹ anza es â&#x20AC;&#x153;estimaciĂłn puntual Âą error mĂĄximoâ&#x20AC;?.
ĺ&#x2020;˘ ĺ&#x2020;Ł
El procedimiento de estimaciĂłn se organiza en un proceso de cinco pasos que tomarĂĄn en cuenta toda la informaciĂłn precedente y producirĂĄ tanto la estimaciĂłn puntual como el LQWHUYDOR GH FRQĂ&#x20AC;DQ]D
EL INTERVALO DE CONFIANZA: UN PROCEDIMIENTO EN CINCO PASOS Paso 1 La preparaciĂłn: Describe el parĂĄmetro poblacional de interĂŠs. Paso 2 Criterios del intervalo de conďŹ anza: a. VeriďŹ ca las suposiciones. b. IdentiďŹ ca la distribuciĂłn de probabilidad y la fĂłrmula a usar. c. Establece el nivel de conďŹ anza, 1 â&#x20AC;&#x201C; . Paso 3 La evidencia muestral: Recolecta la informaciĂłn muestral. Paso 4 El intervalo de conďŹ anza: a. Determina el coeďŹ ciente de conďŹ anza. b. Encuentra el error mĂĄximo de estimaciĂłn. c. Encuentra los lĂmites de conďŹ anza inferior y superior.
SecciĂłn 8.2
EstimaciĂłn de media ( conocida)
Paso 5 Los resultados: Establece el intervalo de conďŹ anza.
(O HMHPSOR LOXVWUDUi HVWH SURFHGLPLHQWR GH LQWHUYDOR GH FRQĂ&#x20AC;DQ]D HQ FLQFR SDVRV
EJEMPLO 8.2 CONSTRUCCIĂ&#x201C;N DE UN INTERVALO DE CONFIANZA PARA UNA MEDIA DE LA DISTANCIA DE VIAJE EN UN SENTIDO El cuerpo estudiantil de muchas universidades comunitarias se considera una â&#x20AC;&#x153;poblaciĂłn viajeraâ&#x20AC;?. La oďŹ cina de actividades estudiantiles quiere obtener una respuesta a la pregunta: ÂżquĂŠ distancia (en un sentido) viaja todos los dĂas un estudiante promedio de universidad comunitaria para llegar a la escuela? (Por lo general, la â&#x20AC;&#x153;distancia de viaje del estudiante promedioâ&#x20AC;? signiďŹ ca la â&#x20AC;&#x153;distancia mediaâ&#x20AC;? que recorren todos los estudiantes que viajan.) Se identiďŹ cĂł una muestra aleatoria de 100 estudiantes viajeros y se obtuvo la distancia en un sentido que cada uno recorre. La resultante distancia media muestral fue de 10.22 millas. Estima la distancia media en un sentido que recorren todos los estudiantes viajeros a partir de a) una estimaciĂłn puntual y b) un intervalo de conďŹ anza de 95%. (Usa = 6 millas.)
SoluciĂłn a) La estimaciĂłn puntual para la distancia media en un sentido es 10.22 millas (la media muestral). b) Usa el procedimiento de cinco pasos para encontrar el intervalo de conďŹ anza de 95%. Paso 1 La preparaciĂłn: Describe el parĂĄmetro poblacional de interĂŠs. El parĂĄmetro de interĂŠs es la media de las distancias en un sentido recorridas por todos los estudiantes viajeros de la universidad comunitaria. Paso 2 Los criterios del intervalo de conďŹ anza: a. VeriďŹ car las suposiciones. Se conoce . Es muy probable que la variable â&#x20AC;&#x153;distancia recorridaâ&#x20AC;? tenga una distribuciĂłn sesgada porque la gran mayorĂa de los estudiantes recorre entre 0 y 25 millas y pocos recorren mĂĄs de 25 millas. Un tamaĂąo de muestra de 100 debe ser suďŹ cientemente grande para que el TCL satisfaga la suposiciĂłn; la distribuciĂłn muestral x es aproximadamente normal. b. IdentiďŹ ca la distribuciĂłn de probabilidad y la fĂłrmula a utilizar. La distribuciĂłn normal estĂĄndar, z, se usarĂĄ para determinar el coeďŹ ciente de conďŹ anza y la fĂłrmula (8.1) con = 6. c. Establece el nivel de conďŹ anza, 1 â&#x20AC;&#x201C; . La pregunta pide conďŹ anza de 95%, o 1 â&#x20AC;&#x201C; = 0.95.
349
350
Capítulo 8
Introducción a la inferencia estadística
Paso 3 La evidencia muestral: Recolectar la información muestral. La información muestral está dada en el enunciado del problema: n = 100, x = 10.22. Paso 4 El intervalo de confianza: a. Determina el coeficiente de confianza. El coeficiente de confianza se encuentra con la tabla 4B: Una parte de la tabla 4B Entrada de tabla con nivel de confianza: 1 – = 0.95
...
0.05
z ( /2) 1–
... ...
1.96 0.95
Salida de tabla con coeficiente de confianza: z( /2) = 1.96
b. Encuentra el máximo error de estimación. Usa la parte del máximo error de la fórmula (8.1): 6 E = z ( /2) = 1.96 = (1.96)(0.6) = 1.176 n 冪 冪100
冢 冣
冢
冣
c. Encuentra los límites de confianza inferior y superior. Con la estimación puntual, x, del paso 3 y el error máximo, E, del paso 4b, encuentra los límites del intervalo de confianza: a x + z ( /2) x – z ( /2) 冪n 冪n
冢 冣
冢 冣
10.22 – 1.176 a 10.22 + 1.176 9.044 a 11.396 9.04 a 11.40 Paso 5 Los resultados: Establece el intervalo de confianza. 9.04 a 11.40 es el intervalo de confianza de 95% para . Esto es, con 95% de confianza es posible decir: “La distancia media en un sentido está entre 9.04 y 11.40 millas”.
Observa otro ejemplo del procedimiento de estimación.
EJEMPLO 8.3 CONSTRUCCIÓN DE UN INTERVALO DE CONFIANZA PARA TAMAÑO DE PARTÍCULA MEDIO El “tamaño de partícula” es una importante propiedad de la pintura látex y se monitorea durante la producción como parte del proceso de control de calidad. Se tomaron 13 mediciones de tamaño de partícula usando el Dwight P. Joyce Disc y la media muestral fue 3 978.1 angstroms (donde 1 angstrom ° [1A] = 10–8 cm). El tamaño de partícula, x, tiene distribución normal con una desviación estándar = 200 angstroms. Encuentra el intervalo de confianza de 98% para el tamaño de partícula medio para este lote de pintura. 7XWRULDO HQ YLGHR GLVSRQLEOH LQJUHVD \ DSUHQGH PiV HQ FHQJDJHEUDLQ FRP
Sección 8.2
Estimación de media ( conocida)
351
Solución Paso 1 La preparación: Describe el parámetro poblacional de interés. El tamaño de partícula medio, , para el lote de pintura del que se extrajo la muestra. Paso 2 Los criterios del intervalo de confianza: a. Verifica las suposiciones. Se conoce . La variable “tamaño de partícula” tiene distribución normal; por tanto, la distribución muestral de medias muestrales es normal para todos los tamaños de muestra. b. Identifica la distribución de probabilidad y la fórmula a utilizar. La variable normal estándar, z y la fórmula (8.1) con = 200 c. Establece el nivel de confianza, 1 – . 98%, o 1 – = 0.98 Paso 3 La evidencia muestral: Recolecta la información muestral: n = 13 y x = 3 978.1. Paso 4 El intervalo de confianza: a. Determina el coeficiente de confianza. El coeficiente de confianza se encuentra con la tabla 4B: z( /2) = z(0.01) = 2.33 Una parte de la tabla 4B Entrada de tabla con nivel de confianza: 1 – = 0.95
z( /2) 1–
...
0.02
... ...
2.33 0.98
Salida de tabla con coeficiente de confianza: z( /2) = 2.33
b. Encuentra el error máximo de estimación. E = z( /2) = 2.33 200 = (2.33)(55.47) = 129.2 冪n 冪13
冢 冣
冢 冣
c. Encuentra los límites de confianza inferior y superior. Con la estimación puntual, x, del paso 3 y el error máximo, E, del paso 4b, encuentra los límites del intervalo de confianza: x – z( /2)
冢冪n 冣
3 978.1 – 129.2 = 3 848.9
a
x+z a
( /2)
冢冪n冣
3 978.1 + 129.2 = 4 107.3
Paso 5 Los resultados: Establece el intervalo de confianza. 3 848.9 a 4 107.3 es el intervalo de confianza de 98% para . Con 98% de confianza es posible decir: “El tamaño de partícula medio está entre 3 848.9 y 4 107.3 angstroms”.
'DOH RWUR YLVWD]R DO FRQFHSWR GH ´QLYHO GH FRQÀDQ]Dµ 6H GHÀQLy FRPR OD SUREDELOLGDG de que la muestra a seleccionar producirá cotas de intervalo que contengan al parámetro.
352
Capítulo 8
Introducción a la inferencia estadística
EJEMPLO 8.4 DEMOSTRACIÓN DEL SIGNIFICADO DE UN INTERVALO DE CONFIANZA Los números aleatorios de un solo dígito, como los de la tabla 1 del apéndice B, tienen un valor medio = 4.5 y una desviación estándar = 2.87 (consulta el ejercicio 5.33, p. 242). Extrae una muestra de 40 números de un solo dígito de la tabla 1 y construye el intervalo de confianza de 90% para la media. ¿El intervalo resultante contiene el valor esperado de , 4.5? Si de la tabla 1 seleccionaras otra muestra de 40 números de un solo dígito, ¿obtendrías el mismo resultado? ¿Qué sucedería si seleccionaras un total de 15 muestras diferentes y construyeras el intervalo de confianza de 90% para cada uno? ¿El valor esperado para (a saber, 4.5) estaría contenido en todas ellas? ¿Debes esperar que los 15 intervalos de confianza contengan 4.5? Piensa en la definición de “nivel de confianza”; dice que, a largo plazo, 90% de las muestras resultarán en cotas que contengan . En otras palabras: 10% de las muestras no contendrán . Observa lo que ocurre. Primero es necesario abordar las suposiciones; si las suposiciones no se satisfacen, no puedes esperar que ocurran 90% y 10%. Sabes que: 1) la distribución de números aleatorios de un solo dígito es rectangular (definitivamente no normal), 2) la distribución de números aleatorios de un solo dígito es simétrica en torno a su media, 3) la distribución x para muestras muy pequeñas (n = 5) en el ejemplo 7.2 (p. 315) mostró una distribución que parecía ser aproximadamente normal y 4) no debe haber sesgo involucrado. Por tanto, parece razonable suponer que n = 40 es suficientemente grande para aplicar el TCL. La primera muestra aleatoria se extrajo de la tabla 1 del apéndice B: TABLA 8.1 Muestra aleatoria de números de un solo dígito [TA08-01] 2 0 3 1
8 4 6 4
2 6 8 1
1 1 4 2
5 5 8 1
5 1 6 7
4 1 8 1
0 3 9 7
9 8 5 9
1 0 0 3
Los estadísticos muestrales son n = 40, x = 159, y x = 3.98. He aquí el resultante intervalo de confianza de 90%: x ± z( /2) : 冪n
冢 冣
冢
3.98 ± 1.65 2.87 冪 40
冣
3.98 ± (1.65)(0.454) 3.98 ± 0.75 3.98 – 0.75 = 3.23 a 3.98 + 0.75 = 4.73 3.23 a 4.73 es el intervalo de confianza de 90% para . La figura 8.5 muestra este intervalo de confianza, sus cotas y la media esperada . FIGURA 8.5 El intervalo de confianza de 90%
Con 90% de confianza, se considera que está en alguna parte dentro de este intervalo. 3.23
= 4.50 4.73 x
Sección 8.2
Estimación de media ( conocida)
353
El valor esperado para la media, 4.5, cae dentro de las cotas del intervalo de confianza para esta muestra. Ahora selecciona 14 muestras aleatorias más de la tabla 1 del apéndice B, cada una de tamaño 40. La tabla 8.2 menciona la media de la primera muestra y las medias obtenidas de las 14 muestras aleatorias adicionales de tamaño 40. Los intervalos de confianza de 90% para la estimación de con base en cada una de las 15 muestras se mencionan en la tabla 8.2 y se muestran en la figura 8.6. TABLA 8.2 Quince muestras de tamaño 40 [TA08-02] Media Estimación de Número muestral intervalo de confianza de muestra x de 90% para
1 2 3 4 5 6 7 8
3.98 4.64 4.56 3.96 5.12 4.24 3.44 4.60
3.23 3.89 3.81 3.21 4.37 3.49 2.69 3.85
FIGURA 8.6 Intervalos de confianza de la tabla 8.2
a a a a a a a a
4.73 5.39 5.31 4.71 5.87 4.99 4.19 5.35
Media Estimación de Número muestral intervalo de confianza de muestra x de 90% para
9 10 11 12 13 14 15
4.08 5.20 4.88 5.36 4.18 4.90 4.48
3.33 4.45 4.13 4.61 3.43 4.15 3.73
a a a a a a a
4.83 5.95 5.63 6.11 4.93 5.65 5.23
= 4.5 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5
Puedes ver que 86.7% (13 de los 15) de los intervalos contienen y 2 de las 15 muestras (muestra 7 y muestra 12) no contienen . Estos resultados son “típicos”; la experimentación repetida puede resultar en cualquier número de intervalos que contenga 4.5. Sin embargo, a largo plazo, debes esperar que aproximadamente 1 – = 0.90 (o 90%) de las muestras resulten en cotas que contengan 4.5 y aproximadamente 10% que no contengan 4.5.
354
Capítulo 8
Introducción a la inferencia estadística
EJEMPLO APLICADO 8.5 TIEMPO DE VIAJE MEDIO AL TRABAJO Los estadounidenses emplean más de 100 horas para viajar al trabajo cada año, de acuerdo con datos de la American Community Survey (ACS) presentados por la oficina de censos de Estados Unidos. Esto supera las dos semanas de tiempo de vacaciones (80 horas) que los trabajadores usualmente toman durante el curso de un año. Para la nación como un todo, el viaje diario promedio al trabajo duró aproximadamente 24.3 minutos en 2003. He aquí los tiempos de viaje medios para algunas ciudades y estados y los respectivos intervalos de confianza de 90%: AP Photo/Mary Altaffer
Clasificación Ciudades 1 2 4 66 Estados 1 2 26 51
Lugar
Media
Cota inferior
Cota superior
Estados Unidos
24.4
24.2
24.6
Nueva York, NY Chicago, IL Riverside, CA Cd. de Oklahoma, OK
38.4 32.7 29.8 17.8
37.9 31.9 26.7 17.0
38.9 33.5 32.9 18.6
Nueva York Maryland Kentucky Dakota del Norte
30.8 30.0 22.7 14.8
30.5 29.5 21.7 14.0
31.1 30.5 23.7 15.6
Fuente: U.S. Census Bureau
La tabla anterior muestra las cotas (límites) inferior y superior del intervalo de confianza de 90%, un intervalo que proporciona un rango de probables valores para incluir el verdadero valor poblacional. Nota: Definición de la U.S. Census Bureau: Tiempo de viaje al trabajo se refiere al número total de minutos que usualmente tarda una persona para ir de su casa al trabajo cada día durante la semana de referencia. El tiempo transcurrido incluye tiempo empleado en espera del transporte público, tiempo empleado en recoger a los pasajeros en transporte colectivo y el tiempo empleado en otras actividades relacionadas con ir al trabajo.
INSTRUCCIONES DE TECNOLOGÍA: I N T E R VA L O D E C O N F I A N Z A PA R A MEDIA CON DADA MINITAB
Escribe los datos en C1; luego continúa con:
Elige: Escribe: Selecciona: Escribe: Selecciona:
Stat > Basic Statistics > 1-Sample Z Muestras en columnas: C1 Desviación estándar: Options Intervalo confianza: 1 – (ej.: 0.95 o 95.0) Alternative: not equal > OK > OK
Secciรณn 8.2
Excel
355
Escribe los datos en la columna A; luego continรบa con:
Elige: Escribe:
TI-83/84 Plus
Estimaciรณn de media ( conocida)
Add-Ins > Data Analysis Plus > Z-Estimate: Mean > OK Rango entrada: (A1:A20 o selecciona celdas) > OK Desviaciรณn estรกndar (SIGMA): > OK Alfa: (ej.: 0.05) > OK
Escribe los datos en L1; luego continรบa con lo siguiente y escribe los valores apropiados y resalta Calcular:
Elige:
STAT > TESTS > 7:Zinterval
Tamaรฑo de muestra (O LQWHUYDOR GH FRQร DQ]D WLHQH GRV FDUDFWHUtVWLFDV EiVLFDV TXH GHWHUPLQDQ VX FDOLGDG VX QLYHO GH FRQร DQ]D \ VX DQFKR (V SUHIHULEOH TXH HO LQWHUYDOR WHQJD XQ DOWR QLYHO GH FRQร DQ ]D \ VHD SUHFLVR HVWUHFKR DO PLVPR WLHPSR 0LHQWUDV PiV DOWR VHD HO QLYHO GH FRQร DQ]D es mรกs probable que el intervalo contenga el parรกmetro y mientras mรกs estrecho sea el intervalo, mรกs precisa serรก la estimaciรณn. Sin embargo, estas dos propiedades parecen funcionar una contra la otra, porque parecerรญa que un intervalo mรกs estrecho tenderรญa a poseer una probabilidad mรกs baja, y un intervalo mรกs ancho serรญa menos preciso. La parte GH HUURU Pi[LPR GH OD IyUPXOD GH LQWHUYDOR GH FRQร DQ]D HVSHFLร FD OD UHODFLyQ LQYROXFUDGD Error mรกximo de estimaciรณn E = z( /2) ๅ ชn
ๅ ข ๅ ฃ
PTI Cuando aumenta el denominador, disminuye el valor de la fracciรณn.
(8.2)
Esta fรณrmula tiene cuatro componentes: 1) el error mรกximo E, la mitad del ancho del interYDOR GH FRQร DQ]D HO FRHร FLHQWH GH FRQร DQ]D z( /2), que estรก determinado por el nivel GH FRQร DQ]D HO WDPDxR GH OD PXHVWUD n, y 4) la desviaciรณn estรกndar, . La desviaciรณn estรกndar no es una preocupaciรณn en esta discusiรณn, porque es una constante (la desviaciรณn estรกndar de una poblaciรณn no cambia de valor). Esto deja tres factores. La inspecciรณn GH OD IyUPXOD LQGLFD OR VLJXLHQWH DXPHQWDU HO QLYHO GH FRQร DQ]D KDFH PiV JUDQGH HO FRHร FLHQWH GH FRQร DQ]D \ HQ FRQVHFXHQFLD UHTXLHUH R TXH DXPHQWH HO HUURU Pi[LPR R TXH GLVPLQX\D HO WDPDxR GH OD PXHVWUD UHGXFLU HO HUURU Pi[LPR UHTXHULUi TXH HO QLYHO GH FRQ ร DQ]D GLVPLQX\D R TXH HO WDPDxR GH OD PXHVWUD DXPHQWH \ UHGXFLU HO WDPDxR GH OD PXHVWUD IRU]DUi D TXH HO HUURU Pi[LPR VH YXHOYD PiV JUDQGH R HO QLYHO GH FRQร DQ]D GLVPLQX\D 3RU WDQWR WLHQHV XQD ยดFRPSHWHQFLD WULSDUWLWDยต FRPR VH UHSUHVHQWD HQ OD ร JXUD 8Q DXPHQWR o disminuciรณn en alguno de los tres factores tiene un efecto sobre uno o ambos de los otros GRV IDFWRUHV /D ODERU GHO HVWDGtVWLFR HV ยดHTXLOLEUDUยต HO QLYHO GH FRQร DQ]D HO WDPDxR GH OD muestra y el error mรกximo, de modo que resulte un intervalo aceptable.
356
CapĂtulo 8
IntroducciĂłn a la inferencia estadĂstica
Nivel de conďŹ anza
FIGURA 8.7 La â&#x20AC;&#x153;competencia tripartitaâ&#x20AC;? entre 1 â&#x20AC;&#x201C; , n y E
Error mĂĄximo
TamaĂąo de la muestra
Observa en acciĂłn un ejemplo de esta relaciĂłn.
EJEMPLO 8.6 DETERMINACIĂ&#x201C;N DEL TAMAĂ&#x2018;O DE LA MUESTRA PARA UN INTERVALO DE CONFIANZA Determina el tamaĂąo de la muestra necesario para estimar el peso medio de todos los niĂąos de segundo grado, si quieres estar preciso dentro de 1 lb, con una conďŹ anza de 95%. SupĂłn una distribuciĂłn normal y que la desviaciĂłn estĂĄndar de los pesos de los niĂąos es 3 lb.
SoluciĂłn PTI Las instrucciones para usar la tabla 4B se proporcionan en la pĂĄgina 350.
El nivel de conďŹ anza deseado determina el coeďŹ ciente de conďŹ anza; el coeďŹ ciente de conďŹ anza se encuentra con la tabla 4B: z( /2) = z(0.025) = 1.96. El error mĂĄximo deseado es E = 1.0. Ahora estĂĄs listo para usar la fĂłrmula del error mĂĄximo: E = z( /2) : 1.0 = 1.96 3 ĺ&#x2020;Şn ĺ&#x2020;Şn Resuelve para n:1.0 = 5.88 ĺ&#x2020;Şn ĺ&#x2020;Şn = 5.88
ĺ&#x2020;˘ ĺ&#x2020;Ł
ĺ&#x2020;˘ ĺ&#x2020;Ł
n = (5.88)2 = 34.57 = 35 Por tanto, n = 35 es el tamaĂąo de muestra necesario si quieres un intervalo de conďŹ anza de 95% con un error mĂĄximo no mayor que 1 lb.
Nota: cuando resuelvas para el tamaĂąo de la muestra n, se acostumbra redondear al siguiente entero mĂĄs grande, sin importar quĂŠ fracciĂłn (o decimal) resulte. (O XVR GH OD IyUPXOD GH HUURU Pi[LPR SXHGH KDFHUVH XQ SRFR PiV VHQFLOOR DO UHV cribir la fĂłrmula en una forma que exprese n en tĂŠrminos de los otros valores. TamaĂąo de la muestra ( /2) U n= z E
ĺ&#x2020;˘
ĺ&#x2020;Ł
2
7XWRULDO HQ YLGHR GLVSRQLEOH LQJUHVD \ DSUHQGH PiV HQ FHQJDJHEUDLQ FRP
(8.3)
Estimaciรณn de media ( conocida)
Secciรณn 8.2
357
Si el error mรกximo se expresa como un mรบltiplo de la desviaciรณn estรกndar , entonces el valor real de QR HV QHFHVDULR FRQ OD ร QDOLGDG GH FDOFXODU HO WDPDxR GH OD PXHVWUD
EJEMPLO 8.7 DETERMINACIร N DEL TAMAร O MUESTRAL SIN UN VALOR CONOCIDO DE SIGMA ( ) Encuentra el tamaรฑo de la muestra necesario para estimar la media poblacional hasta dentro de 15 de una desviaciรณn estรกndar con 99% de con๏ฌ anza.
Soluciรณn Determina el coe๏ฌ ciente de con๏ฌ anza (con la tabla 4B): 1 โ = 0.99, z( /2) = 2.58. El error mรกximo deseado E = 5 . Ahora estรกs listo para usar la fรณrmula de tamaรฑo muestral (8.3):
ๅ ข
ๅ ฃ
( /2) U 2 : n= z E
ๅ ข
n = (2.58) U /5
ๅ ฃ = ๅ ข(2.58 )(5)ๅ ฃ 2
2
= [(2.58)(5)]2
= (12.90)2 = 166.41 = 167
EJERCICIOS SECCIร N 8.2 8.21 Discute las condiciones que deben existir antes de poder estimar la media poblacional con las tรฉcnicas de intervalo de OD IyUPXOD 8.22 'HWHUPLQD HO YDORU GHO FRHร FLHQWH GH FRQร DQ]D z( /2) para cada situaciรณn descrita:
8.26 Dada la informaciรณn, la poblaciรณn muestreada tiene distribuciรณn normal, n = 55, x \ = 12: D (QFXHQWUD HO LQWHUYDOR GH FRQร DQ]D GH SDUD . b. ยฟSe satisfacen las suposiciones? Explica. 8.27 Dada la informaciรณn, n x \ = 16.4:
a. 1 โ = 0.90
D (QFXHQWUD HO LQWHUYDOR GH FRQร DQ]D GH SDUD .
b. 1 โ = 0.95 8.23 'HWHUPLQD HO YDORU GHO FRHร FLHQWH GH FRQร DQ]D z( /2) para cada situaciรณn descrita:
b. ยฟSe satisfacen las suposiciones? Explica.
D GH FRQร DQ]D
D (QFXHQWUD HO LQWHUYDOR GH FRQร DQ]D GH SDUD .
E GH FRQร DQ]D
b. ยฟSe satisfacen las suposiciones? Explica.
8.28 Dada la informaciรณn, n = 22, x = 72.3 y = 6.4:
8.24 'HWHUPLQD HO QLYHO GH OD FRQร DQ]D GDGR HO FRHร FLHQWH GH 8.29 &RQ EDVH HQ HO LQWHUYDOR GH FRQร DQ]D IRUPDGR HQ HO HMHUFRQร DQ]D z( /2) para cada situaciรณn: FLFLR SURSRUFLRQD HO YDORU SDUD FDGD XQR GH ORV VLJXLHQtes: b. z( /2) = 1.96 a. z( /2) = 1.645 a. Estimaciรณn puntual d. z( /2) = 2.05 c. z( /2) = 2.575 E &RHร FLHQWH GH FRQร DQ]D 8.25 Dada la informaciรณn, la poblaciรณn muestreada tiene distribuciรณn normal, n = 16, x \ = 6: c. Error estรกndar de la media D (QFXHQWUD HO LQWHUYDOR GH FRQร DQ]D GH SDUD .
d. Error mรกximo de estimaciรณn, E
b. ยฟSe satisfacen las suposiciones? Explica. 7XWRULDO HQ YLGHR GLVSRQLEOH LQJUHVD \ DSUHQGH PiV HQ FHQJDJHEUDLQ FRP
FRQWLQ~D HQ OD SiJLQD
En sus propias aulas, a través de sus populares textos, y en las conferencias que imparten, Robert Johnson y Patricia Kuby han inspirado a cientos de miles de estudiantes y sus instructores para ver la utilidad y la viabilidad de la estadística. Ahora, en su undécima edición, Estadística elemental ha sido constantemente alabado por los usuarios y revisores por su exposición clara y ejemplos relevantes, ejercicios y aplicaciones. El enfoque en la tecnología para ayudar a los estudiantes a tener éxito –como MINITAB®, Excel® y TI-83/84– se ve reforzada por una gran cantidad de suplementos que ahorran tiempo y dan a los profesores y estudiantes una guía interactiva y de apoyo. Todo esto y más ha establecido la reputación de este texto de ser muy accesible para los estudiantes y simple y directo para los instructores que enseñan con él. Características Énfasis en la interpretación de la información estadística y aplicaciones reales. A partir del capítulo 1, cuando los estudiantes aprenden los principales términos y procedimientos, en el capítulo 4, “Probabilidad”, donde el análisis en lugar de la fórmula se pone de relieve, y continuando a lo largo del texto, los autores enfatizan el papel de la interpretación en el análisis estadístico. Ejemplos y ejercicios de aplicación real caracterizan la estadística, y las viñetas de apertura del capítulo aumentan la relevancia del material para los estudiantes. Ejercicios de pensamiento crítico a lo largo de los capítulos apoyan el enfoque práctico de este libro de probada eficacia. % Organización flexible e integrada, actualizada al día en las instrucciones de la tecnología. El valor P y los enfoques clásicos de la prueba de hipótesis se introdujeron inicialmente por separado y se presentan a partir de entonces lado a lado, haciendo hincapié en la comparabilidad de ambos y permitiendo una amplia gama de métodos de enseñanza. Del mismo modo, la regresión y correlación descriptiva están cubiertos al inicio (capítulo 3), y MINITAB®, Excel® y las instrucciones de la calculadora gráfica TI-83/84 se encuentran en todo el texto en lugar de ser relegados al final de cada capítulo de materiales o apéndices. % Además de los amplios ejercicios que aparecen en cada capítulo, concluyen con un resumen “En retrospectiva”, un vocabulario y conceptos clave, una guía para los resultados de aprendizaje del capítulo y una gran cantidad de ejercicios adicionales, así como un examen de práctica. Los resultados se correlacionan con secciones específicas y ejercicios, dando a los estudiantes otra forma de evaluar su dominio de cada tema. % Cobertura de los ejercicios y conceptos introductorios incluyendo la notación de suma, el procedimiento de redondeo, diagramas de árbol y la notación factorial (texto escrito por la co-autora Patricia Kuby) se proporciona en la parte final del libro, junto con una sección de respuestas por separado para apoyar a los estudiantes. %