Outras obras
Este livro é uma introdução aos procedimentos estatísticos
Estatística Geral e Aplicada Giuseppe Milone
baseada em conceitos que preparam os estudantes para conduzir e avaliar pesquisas. Os autores enfatizam conceitos, e não somente fórmulas ou memorizações mecânicas, e usam exemplos práticos e interessantes com dados reais para tornar o material ainda mais atrativo. Com capítulos didáticos, Princípios de Bioestatística utiliza também dados extraídos de estudos publicados para exemplificar conceitos bioestatísticos, discussões revisadas e expandidas de
O Método Fenomenológico na Pesquisa Daniel Augusto Moreira
Método nas Ciências Naturais Sociais Alda Judith Alves-Mazzotti e Fernando Gewandsznajder
muitos tópicos e questões adicionais para auxiliar a clarear conceitos. Esta obra procura mostrar a bioestatística de uma maneira fácil de entender, sem minimizar, no entanto, a importância do assunto. Aplicações Livro-texto para a disciplina estatística aplicada às ciências biológicas e leitura complementar para a disciplina introdução à estatística nos cursos de Medicina, Saúde Pública e Biologia.
ISBN 13 978-85-221-0920-3 ISBN 10 85-221-0920-6
Para suas soluções de curso e aprendizado, visite www.cengage.com.br
9 788522 109203
Pesquisa Médica: A Ética e a Metodologia Sonia Vieira e William Saad Hossne
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página I
Princípios de Bioestatística Tradução da 2a edição norte-americana
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página II
Dados Internacionais de Catalogação na Publicação (CIP) (Câmara Brasileira do Livro, SP, Brasil) Pagano, Marcello, 1945– Princípios de bioestatística / Marcello Pagano, Kimberlee Gauvreau ; tradução Luiz Sérgio de Castro Paiva ; revisão técnica Lúcia Pereira Barroso. — São Paulo : Cengage Learning, 2004. Título original : Principles of bioestatistics. Bibliografia. ISBN: 978-85-221-0 - 1. Bioestatística 2. Biometria I. Gauvreau, Kimberlee, 1963—. II. Título.
03-5627
CDD-574.015195
Índice para catálogo sistemático: 1. Bioestatística 574.015195
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página III
Princípios de Bioestatística Tradução da 2a edição norte-americana
Marcello Pagano Kimberlee Gauvreau
Tradução Luiz Sérgio de Castro Paiva Revisão Técnica Lúcia Pereira Barroso Bacharel, mestre e doutora em Estatística pelo Instituto de Matemática e Estatística da USP
Austrália • Brasil • Japão • Coréia • México • Cingapura • Espanha • Reino Unido • Estados Unidos
Princípios de Bioestatística Marcello Pagano & Kimberlee Gauvreau
Gerente Editorial: Adilson Pereira Editora de Desenvolvimento: Eugênia Pessotti Produtora Editorial: Tatiana Pavanelli Valsi Produtora Gráfica: Patricia La Rosa Título Original em Inglês: Principles of Bioestatistics – Second edition ISBN: 0-534-22902-6 Tradução: Luiz Sérgio de Castro Paiva
© 2000 de Brooks/Cole, parte da Cengage Learning © 2004 Cengage Learning Edições Ltda. Todos os direitos reservados. Nenhuma parte deste livro poderá ser reproduzida, sejam quais forem os meios empregados, sem a permissão, por escrito, da Editora. Aos infratores aplicam-se as sanções previstas nos artigos 102, 104, 106 e 107 da Lei no 9.610, de 19 de fevereiro de 1998.
Para informações sobre nossos produtos, entre em contato pelo telefone 0800 11 19 39 Para permissão de uso de material desta obra, envie seu pedido para direitosautorais@cengage.com
Revisão Técnica: Lúcia Pereira Barroso Copidesque: Iná Lúcia Carvalho dos Santos Revisão: Peterso Rissatti e Regina Elisabete Barbosa Diagramação: Macquete Produções Gráficas Capa: Ana Lima
© 2004 Cengage Learning. Todos os direitos reservados. ISBN 13: 978-85-221-0920-3 ISBN 10: 85-221-0920-6
Cengage Learning Condomínio E-Business Park Rua Werner Siemens, 111 – Prédio 20 – Espaço 04 Lapa de Baixo – CEP 05069-900 – São Paulo – SP Tel.: (11) 3665-9900 – Fax: (11) 3665-9901 SAC: 0800 11 19 39 Para suas soluções de curso e aprendizado, visite www.cengage.com.br
Impresso no Brasil. Printed in Brazil. 1 2 3 4 08 07 06 05 04
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página V
Este livro é dedicado com amor a Phyllis, John-Paul, Marisa, Loris, Alice e Lilian. Neil e Eliza
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Pรกgina VI
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página VII
Sumário
Prefácio
................................................................................................................ XIII
1 Introdução ........................................................................................................ 1.1 Resumo do Texto............................................................................................... 1.2 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
2 Apresentação de Dados ......................................................................... 2.1 Tipos de Dados Numéricos ............................................................................... 2.1.1 Dados Nominais...................................................................................... 2.1.2 Dados Ordinais ....................................................................................... 2.1.3 Dados Substituídos por Postos................................................................ 2.1.4 Dados Discretos ...................................................................................... 2.1.5 Dados Contínuos..................................................................................... 2.2 Tabelas ............................................................................................................... 2.2.1 Distribuições de Freqüências .................................................................. 2.2.2 Freqüência Relativa................................................................................. 2.3 Gráficos ............................................................................................................. 2.3.1 Gráficos de Barras................................................................................... 2.3.2 Histogramas ............................................................................................ 2.3.3 Polígonos de Freqüência ......................................................................... 2.3.4 Gráficos de Dispersão Unidimensionais................................................. 2.3.5 Box Plots................................................................................................. 2.3.6 Gráficos de Dispersão Bidimensionais ................................................... 2.3.7 Gráficos de Linha.................................................................................... 2.4 Aplicações Adicionais....................................................................................... 2.5 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
3 Medidas-Resumo Numéricas .............................................................. 3.1 Medidas de Tendência Central .......................................................................... 3.1.1 Média ...................................................................................................... 3.1.2 Mediana .................................................................................................. 3.1.3 Moda .......................................................................................................
1 2 5 5 6 6 6 8 8 9 10 10 10 12 14 14 15 16 19 19 20 21 22 28 33 35 35 35 37 38
PRE-TEXTUAIS:PRE-TEXTUAIS
VIII
04.05.12
08:58
Página VIII
Princípios de Bioestatística
3.2 Medidas de Dispersão ....................................................................................... 3.2.1 Amplitude ............................................................................................... 3.2.2 Intervalo Interquartil ............................................................................... 3.2.3 Variância e Desvio-Padrão...................................................................... 3.2.4 Coeficiente de Variação........................................................................... 3.3 Dados Agrupados .............................................................................................. 3.3.1 Média de Dados Agrupados .................................................................... 3.3.2 Variância de Dados Agrupados ............................................................... 3.4 Desigualdade de Chebychev ............................................................................. 3.5 Aplicações Adicionais....................................................................................... 3.6 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
4 Taxas e Padronização ............................................................................. 4.1 Taxas ................................................................................................................ 4.2 Padronização de Taxas ...................................................................................... 4.2.1 Método Direto de Padronização.............................................................. 4.2.2 Método Indireto de Padronização ........................................................... 4.2.3 Uso de Taxas Padronizadas..................................................................... 4.3 Aplicações Adicionais....................................................................................... 4.3.1 Método Direto de Padronização.............................................................. 4.3.2 Método Indireto de Padronização ........................................................... 4.4 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
5 Tábuas de Vida............................................................................................. 5.1 Cálculo da Tábua de Vida ................................................................................. 5.1.1 Coluna 1 .................................................................................................. 5.1.2 Coluna 2 .................................................................................................. 5.1.3 Colunas 3 e 4........................................................................................... 5.1.4 Coluna 5 .................................................................................................. 5.1.5 Coluna 6 .................................................................................................. 5.1.6 Coluna 7 .................................................................................................. 5.2 Aplicações da Tábua de Vida ............................................................................ 5.3 Anos Potenciais de Vida Perdidos..................................................................... 5.4 Aplicações Adicionais....................................................................................... 5.5 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
6 Probabilidade ................................................................................................ 6.1 6.2 6.3 6.4
Operações sobre Eventos e Probabilidade ........................................................ Probabilidade Condicional................................................................................ Teorema de Bayes ............................................................................................. Testes de Diagnósticos ...................................................................................... 6.4.1 Sensibilidade e Especificidade................................................................ 6.4.2 Aplicações do Teorema de Bayes ...........................................................
39 39 40 42 44 44 45 47 47 49 54 59
60 60 64 66 67 68 77 78 80 81 87
88 88 88 90 91 93 93 93 94 96 100 104 112
113 113 117 118 123 123 124
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página IX
Sumário
IX
6.4.3 Curvas ROC ............................................................................................ 6.4.4 Cálculos de Prevalência .......................................................................... 6.5 O Risco Relativo e a Razão de Chances ........................................................... 6.6 Aplicações Adicionais....................................................................................... 6.7 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
127 129 131 136 141 145
7 Distribuições Teóricas de Probabilidade..................................... 7.1 Distribuições de Probabilidade ......................................................................... 7.2 A Distribuição Binomial ................................................................................... 7.3 A Distribuição de Poisson................................................................................. 7.4 A Distribuição Normal...................................................................................... 7.5 Aplicações Adicionais....................................................................................... 7.6 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
8 Distribuição Amostral da Média ...................................................... 8.1 Distribuições Amostrais .................................................................................... 8.2 O Teorema Central do Limite ........................................................................... 8.3 Aplicações do Teorema Central do Limite........................................................ 8.4 Aplicações Adicionais....................................................................................... 8.5 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
9 Intervalos de Confiança ......................................................................... 9.1 Intervalos de Confiança Bilaterais .................................................................... 9.2 Intervalos de Confiança Unilaterais .................................................................. 9.3 Distribuição t de Student................................................................................... 9.4 Aplicações Adicionais....................................................................................... 9.5 Exercícios de Revisão ....................................................................................... Bibliografia...............................................................................................................
10 Testes de Hipóteses .................................................................................... 10.1 Conceitos Gerais ............................................................................................. 10.2 Testes de Hipóteses Bilaterais......................................................................... 10.3 Testes de Hipóteses Unilaterais ...................................................................... 10.4 Tipos de Erro................................................................................................... 10.5 Poder ............................................................................................................... 10.6 Estimação do Tamanho da Amostra................................................................ 10.7 Aplicações Adicionais..................................................................................... 10.8 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
147 147 149 155 159 167 172 175
177 177 178 179 184 190 192
193 193 198 199 202 205 207
209 209 211 214 215 218 221 223 228 230
PRE-TEXTUAIS:PRE-TEXTUAIS
X
04.05.12
08:58
Página X
Princípios de Bioestatística
11 Comparação de Duas Médias ............................................................ 11.1 Amostras Pareadas .......................................................................................... 11.2 Amostras Independentes ................................................................................. 11.2.1 Variâncias Iguais ................................................................................. 11.2.2 Variâncias Desiguais ........................................................................... 11.3 Aplicações Adicionais..................................................................................... 11.4 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
12 Análise de Variância ................................................................................. 12.1 Análise de Variância com um Fator ................................................................ 12.1.1 O Problema ......................................................................................... 12.1.2 Fontes de Variação ............................................................................... 12.2 Procedimentos de Comparações Múltiplas..................................................... 12.3 Aplicações Adicionais..................................................................................... 12.4 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
13 Métodos Não-paramétricos................................................................. 13.1 O Teste do Sinal .............................................................................................. 13.2 O Teste de Postos Sinalizados de Wilcoxon ................................................... 13.3 O Teste da Soma de Postos de Wilcoxon........................................................ 13.4 Vantagens e Desvantagens dos Métodos Não-paramétricos ........................... 13.5 Aplicações Adicionais..................................................................................... 13.6 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
14 Inferência sobre Proporções ............................................................... 14.1 Aproximação Normal para a Distribuição Binomial ...................................... 14.2 Distribuição Amostral de uma Proporção ....................................................... 14.3 Intervalos de Confiança .................................................................................. 14.4 Testes de Hipóteses ......................................................................................... 14.5 Estimação do Tamanho da Amostra................................................................ 14.6 Comparação de Duas Proporções ................................................................... 14.7 Aplicações Adicionais..................................................................................... 14.8 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
15 Tabelas de Contingência ........................................................................ 15.1 O Teste Qui-Quadrado .................................................................................... 15.1.1 Tabelas 2 3 2 ....................................................................................... 15.1.2 Tabelas r 3 c ........................................................................................ 15.2 Teste de McNemar .......................................................................................... 15.3 A Razão de Chances ....................................................................................... 15.4 Falácia de Berkson.......................................................................................... 15.5 Aplicações Adicionais..................................................................................... 15.6 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
232 233 237 238 242 244 248 252 254 254 254 257 260 262 266 268 269 269 271 274 277 278 282 286 287 287 289 290 292 293 294 297 299 302 304 304 304 309 310 312 317 319 324 330
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página XI
Sumário
16 Tabelas de Contingência 2 X 2 Múltiplas................................... 16.1 Paradoxo de Simpson...................................................................................... 16.2 O Método de Mantel-Haenszel ....................................................................... 16.2.1 Teste de Homogeneidade .................................................................... 16.2.2 Razão de Chances Resumo ................................................................. 16.2.3 Teste de Associação ............................................................................ 16.3 Aplicações Adicionais..................................................................................... 16.4 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
17 Correlação ........................................................................................................ 17.1 O Gráfico de Dispersão Bidimensional .......................................................... 17.2 Coeficiente de Correlação de Pearson ............................................................ 17.3 Coeficiente de Correlação de Postos de Spearman......................................... 17.4 Aplicações Adicionais..................................................................................... 17.5 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
18 Regressão Linear Simples ..................................................................... 18.1 Conceitos da Regressão .................................................................................. 18.2 O Modelo ........................................................................................................ 18.2.1 A Linha de Regressão da População................................................... 18.2.2 O Método dos Mínimos Quadrados.................................................... 18.2.3 Inferência para os Coeficientes da Regressão..................................... 18.2.4 Inferência para Valores Previstos ........................................................ 18.3 Avaliação do Modelo ...................................................................................... 18.3.1 O Coeficiente de Determinação .......................................................... 18.3.2 Gráficos de Resíduos ......................................................................... 18.3.3 Transformações................................................................................... 18.4 Aplicações Adicionais..................................................................................... 18.5 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
19 Regressão Múltipla .................................................................................... 19.1 O Modelo ........................................................................................................ 19.1.1 A Equação da Regressão de Mínimos Quadrados .............................. 19.1.2 Inferência para os Coeficientes da Regressão..................................... 19.1.3 Avaliação do Modelo .......................................................................... 19.1.4 Variáveis Indicadoras .......................................................................... 19.1.5 Termos de Interação ............................................................................ 19.2 Seleção do Modelo.......................................................................................... 19.3 Aplicações Adicionais..................................................................................... 19.4 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
XI
332 332 333 335 338 341 343 348 351
352 352 354 357 360 364 366
367 367 371 371 373 376 379 381 381 382 384 386 391 395
396 396 397 398 400 401 403 404 406 410 414
PRE-TEXTUAIS:PRE-TEXTUAIS
XII
04.05.12
08:58
Página XII
Princípios de Bioestatística
20 Regressão Logística ................................................................................... 20.1 O Modelo ........................................................................................................ 20.1.1 A Função Logística ............................................................................. 20.1.2 A Equação Ajustada ............................................................................ 20.2 Regressão Logística Múltipla ......................................................................... 20.3 Variáveis Indicadoras ...................................................................................... 20.4 Aplicações Adicionais..................................................................................... 20.5 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
21 Análise de Sobrevivência ...................................................................... 21.1 O Método da Tábua de Vida ........................................................................... 21.2 O Método do Produto-Limite ......................................................................... 21.3 O Teste Log-Rank ........................................................................................... 21.4 Aplicações Adicionais..................................................................................... 21.5 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
22 Teoria da Amostragem ...........................................................................
415 415 416 418 419 422 424 427 430
431 432 437 440 444 451 453
22.1 Esquemas de Amostragem .............................................................................. 22.1.1 Amostragem Aleatória Simples .......................................................... 22.1.2 Amostragem Sistemática..................................................................... 22.1.3 Amostragem Estratificada................................................................... 22.1.4 Amostragem por Conglomerados ....................................................... 22.1.5 Amostragem Não-Probabilística ......................................................... 22.2 Fontes de Tendência........................................................................................ 22.3 Aplicações Adicionais..................................................................................... 22.4 Exercícios de Revisão ..................................................................................... Bibliografia...............................................................................................................
454 454 455 455 456 457 457 457 459 463 464
Apêndice A Tabelas.......................................................................................
465
Apêndice B.....................................................................................................
491
Índice ..........................................................................................................
503
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página XIII
Prefácio
Este livro foi escrito para estudantes das ciências da saúde e serve como introdução ao estudo da bioestatística e ao uso das técnicas numéricas para se obter informações de dados e fatos. Por serem mais precisos do que as palavras, os números são particularmente mais adequados para transmitir as conclusões científicas. No entanto, tal como se pode mentir com palavras, pode-se fazer o mesmo com números. De fato, números e mentiras têm estado juntos há bastante tempo; existe até um livro intitulado Como mentir com a Estatística. A origem dessa associação, ou pelo menos sua afirmação, é atribuída ao primeiro-ministro britânico Benjamin Dissaeli. Mark Twain atribuiu a Dissaeli a seguinte frase: “Existem três tipos de mentiras: mentiras, mentiras condenáveis e estatísticas”. Basta observar qualquer campanha política moderna para ficarmos convencidos do abuso da estatística. Entretanto, chega de mentiras; este livro adota a posição do professor Frederick Mosteller, que disse: “É fácil mentir com a estatística, mas é mais fácil mentir sem ela”.
Antecedentes Princípios de Bioestatística é dirigido aos estudantes das ciências biológicas e de saúde que queiram aprender métodos modernos de pesquisa. É fundamentado em um curso obrigatório, oferecido pela Harvard School of Public Health. Além dos estudantes de pós-graduação, um grande número de profissionais da saúde da área médica de Harvard assiste ao curso, que é tão antigo quanto a própria escola, e isso atesta sua importância. Estende-se por 16 semanas e divide-se em aulas e sessões de laboratório. Cada semana inclui duas aulas de 50 minutos e uma sessão de laboratório de duas horas. Os alunos são reunidos para as aulas, mas divididos em grupos menores supervisionados por assistentes de ensino para as sessões de laboratório, cuja função é reforçar a matéria ministrada nas aulas teóricas, revisar as lições de casa e introduzir o computador no curso. Incluímos os materiais de laboratório — exceto os que tratam das lições de casa e comandos específicos de computador — nas seções denominadas Aplicações Adicionais, que apresentam exemplos adicionais ou diferentes perspectivas da matéria dada em um determinado capítulo. Essas seções são concebidas para suscitar discussões, embora sejam suficientemente completas para que o leitor que não o esteja usando como livro-texto de um curso possa ter o mesmo benefício ao lê-las. Este livro foi ampliado para incluir tópicos que acreditamos poderem ser explicitados com certa profundidade em um semestre norte-americano. Obviamente, algumas escolhas tiveram de ser feitas e esperamos que as tenhamos feito bem. Em nosso curso, temos tempo suficiente para esclarecer a maioria dos tópicos nos primeiros 20 capítulos. No entanto, o material apresen-
PRE-TEXTUAIS:PRE-TEXTUAIS
XIV
04.05.12
08:58
Página XIV
Princípios de Bioestatística
tado é suficiente para permitir certa flexibilidade ao instrutor. Por exemplo, alguns instrutores podem escolher omitir seções que explicam os dados agrupados (Seção 3.3), a desigualdade de Chebychev (Seção 3.4) e a distribuição de Poisson (Seção 7.3) ou o capítulo sobre a análise de variância (Capítulo 12), se considerarem esses conceitos menos importantes que outros.
Estrutura Dizem alguns que a estatística é o estudo da variabilidade e da incerteza. Acreditamos que exista verdade nesse adágio e o usamos como guia ao dividirmos o livro em três partes. Os primeiros cinco capítulos tratam das coleções de números e dos modos de resumi-los, analisá-los e explicá-los. Os dois capítulos seguintes focalizam a probabilidade e servem como introdução às ferramentas necessárias para a subseqüente investigação da incerteza. Somente no oitavo capítulo e nos posteriores fazemos distinção entre populações e amostras e começamos a investigar a variabilidade inerente introduzida pela amostragem, caminhando para a inferência. Essa introdução modular à quantificação da incerteza é justificada pelo sucesso obtido por nossos estudantes. Protelar os conceitos um pouco mais difíceis até que um sólido fundamento tenha sido estabelecido facilita sua compreensão pelo leitor.
Conjunto de Dados e Exemplos Por todo o texto usamos dados extraídos de estudos publicados para exemplificar os conceitos bioestatísticos. Os dados reais não são apenas mais significativos, como também são em geral mais interessantes. Naturalmente, não queremos usar exemplos nos quais os assuntos sejam muito herméticos ou muito complexos. Para esse fim, fomos guiados pelos antecedentes e interesses de nossos estudantes — fundamentalmente tópicos de saúde pública e da pesquisa clínica — para escolher exemplos que ilustram melhor os conceitos abordados. Existe algum risco em se usar dados publicados. Não podemos garantir que todos os exemplos sejam honestos e que os dados foram apropriadamente coletados; por isso precisamos confiar na reputação de nossas fontes. Não depreciamos a importância dessa consideração. O valor de nossa inferência depende essencialmente do valor dos dados e recomendamos enfaticamente que um esforço expressivo seja despendido na avaliação da qualidade da informação. Assumimos que esse aspecto seja entendido pelo leitor. Mais de uma vez usamos exemplos em que a população dos Estados Unidos foi dividida em suas linhas raciais. Ao registrarmos essas estatísticas oficiais seguimos a diretriz das agências governamentais que as liberaram. Não queremos ratificar essa categorização racial, pois de fato as diferenças observadas podem ser devidas aos fatores socioeconômicos, em vez dos fatores raciais envolvidos. Uma opção seria ignorar essas estatísticas; no entanto, essa atitude esconderia as injustiças que existem em nosso sistema de saúde — que necessitam ser eliminadas. Focalizamos a atenção no problema, na esperança de estimularmos o interesse de promover soluções. Minimizamos o uso de notação matemática por causa de sua bem-merecida reputação de ser o jargão supremo. Se usada excessivamente, pode intimidar mesmo o mais ardente estudante. No entanto, não queremos eliminá-la inteiramente; ela tem sido desenvolvida no decorrer do tempo para ser útil na transmissão de resultados. Esperamos que a esse respeito tenhamos escrito um texto sucinto e claro. Além da sua precisão, existe algo mais nos números — talvez um pouco de magia — que os tornam divertidos de serem estudados. A diversão está mais na conceituação do que nos cálculos e somos afortunados em termos o computador para fazer o trabalho pesado, o que permite ao estudante se concentrar nas idéias. Em outras palavras, o computador possibilita ao instrutor ensinar a poesia da estatística e não seu trabalho pesado.
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Página XV
Prefácio
XV
Computação Para aproveitarmos o computador, necessitamos de um bom pacote estatístico. Usamos o Stata, disponível no Stata Corporation no College Station, Texas. Consideramos esse pacote estatístico um dos melhores no mercado atualmente; ele é descomplicado para o usuário, preciso, potente, tem um preço razoável e trabalha em várias e diferentes plataformas, inclusive Windows, Unix e Macintosh. Além disso, a saída desse pacote é aceita pela Federal Drug Administration nas apreciações de Aprovação de Novos Medicamentos. Outros pacotes estão disponíveis e este livro pode ser suplementado por qualquer um deles. Nesta edição, apresentamos também a saída a partir do SAS e do Minitab, na seção Aplicações Adicionais de cada capítulo. Recomendamos enfaticamente que seja utilizado algum pacote estatístico. Alguns exercícios de revisão do texto exigem o uso do computador. Para ajudar o leitor, incluímos o conjunto de dados usado nesses exercícios, no Apêndice B. Existem também muitos exercícios que não exigem o uso do computador. Como sempre, o aprendizado ativo produz melhor resultado do que uma observação passiva. Para esse fim, realçamos enfaticamente a importância dos exercícios de revisão e encorajamos o leitor a fazê-los tantas vezes quantas o seu tempo permitir.
O Que Há de Novo Nesta Edição Esta edição é toda permeada de discussões revisadas e expandidas de muitos tópicos e questões adicionais para auxiliar a esclarecer os conceitos. Sempre que possível, os conjuntos de dados usados na edição anterior, especialmente as estatísticas oficiais registradas pelas agências governamentais, foram atualizados. Tabelas que contêm probabilidades exatas para as distribuições binomial e de Poisson (geradas pelo Stata) foram adicionadas no Apêndice A. Como foi anteriormente mencionado, incorporamos a saída de computador do SAS, do Minitab e também do Stata, nas seções Aplicações Adicionais. Incorporamos também vários novos exercícios, incluindo questões que revêem os conceitos básicos expostos em cada capítulo.
Agradecimentos Agradecemos a várias pessoas: ao presidente da Harvard University, Derek Bok, por fornecer o suporte que impulsionou este livro, ao Dr. Michael K. Martin, por calcular as Tabelas de A.3 até A.8 no Apêndice A, e John-Paul Pagano, por ajudar na realização da primeira edição. Agradecemos às seguintes pessoas que revisaram os manuscritos: Rick Chappell, University of Wisconsin; Dr. Todd G. Nick, University of Mississipi Medical Center; Al Bartolucci, University of Alabama em Birmingham; Bruce E. Trumbo, California State University, Hayward; James Godbold, The Mount Sinai School of Medicine of New York University e Maureen Lahiff, University of California, Berkeley. Nossos agradecimentos aos assistentes de ensino que nos auxiliaram a ministrar o curso e que fizeram muitas sugestões valiosas. Provavelmente o mais merecido dos agradecimentos seja aos estudantes que fizeram o curso no decorrer dos anos e que nos toleraram enquanto aprendíamos a ensiná-los. Ainda estamos aprendendo. Marcello Pagano Kimberlee Gauvreau Boston, Massachusetts
PRE-TEXTUAIS:PRE-TEXTUAIS
04.05.12
08:58
Pรกgina XVI
CAP01:CAP01
26.04.12
09:58
Página 1
1
Introdução
Em 1903, H. G. Wells conjeturou que, um dia, o pensamento estatístico seria tão necessário para os bons cidadãos quanto o ler e o escrever. A estatística desempenha o papel importante em muitos processos de tomada de decisão. Antes que um novo remédio possa ser colocado no mercado, por exemplo, a Food and Drug Administration dos Estados Unidos exige que seja submetido a um ensaio clínico — estudo experimental envolvendo indivíduos humanos. Os dados desse estudo precisam ser compilados e analisados para que seja determinado se o remédio é efetivo e seguro. Além disso, as decisões do governo norte-americano com relação aos programas de Previdência Social e da Saúde Pública fiam-se, em parte, em previsões sobre a longevidade da população da nação. Conseqüentemente, deveríamos ser capazes de prever o número de anos que cada indivíduo viverá. Muitas outras questões também necessitam ser abordadas. Onde o governo deve investir seus recursos, se deseja reduzir a mortalidade infantil? O uso do cinto de segurança ou de um air bag diminui a chance de morte em um acidente de veículo a motor? A mastectomia sempre deve ser recomendada para uma paciente com câncer de mama? Que fatores aumentam o risco de um indivíduo desenvolver uma doença cardíaca coronariana? Para responder a essas e outras questões, contamos com os métodos de bioestatística. O estudo da estatística explora a coleta, a organização, a análise e a interpretação dos dados numéricos. Seus conceitos podem ser aplicados aos diversos campos que incluem negócios, psicologia e agricultura. Quando o foco está nas ciências biológicas e da saúde, usamos o termo bioestatística. Através dos tempos, a estatística tem sido usada para contar a história com números, posto que, freqüentemente, transmitem idéias mais sucintamente do que as palavras. Por exemplo, a mensagem transmitida pelos seguintes dados é bastante clara: “Em 1979, 48 pessoas no Japão, 34 na Suíça, 52 no Canadá, 58 em Israel, 21 na Suécia, 42 na Alemanha, 8 na Inglaterra e 10.728 nos Estados Unidos foram mortas por armas de fogo” [1]. O poder desses números é óbvio; a questão poderia ser formulada mesmo se corrigíssemos para diferenças no tamanho da população. Como um segundo exemplo, considere a seguinte citação, tomada de um editorial no The Boston Globe [2]: A falta de anticoncepcionais está ligada a uma taxa de abortos excepcionalmente alta na União Soviética — 120 abortos para cada 100 nascimentos, comparados com 20 abortos por 100 nascimentos na Grã-Bretanha, onde o acesso aos anticoncepcionais está garantido. O suporte inadequado para o planejamento familiar nos Esta-
CAP01:CAP01
26.04.12
2
09:58
Página 2
Princípios de Bioestatística
dos Unidos resultou em 40 abortos para cada 100 nascimentos — taxa menor do que a da União Soviética, mas duas vezes mais alta que a da maioria das nações industrializadas.
Nesse caso, muita informação está contida em somente três números: 120, 20 e 40. A estatística fornece o entendimento das conseqüências de diferentes atitudes com relação ao planejamento familiar. Nesses dois exemplos, os números fornecem um resumo conciso de certos aspectos da situação que está sendo estudada. Certamente a explanação numérica dos dados de armas de fogo é mais clara do que se tivéssemos falado: algumas pessoas foram mortas no Japão, poucas na Suíça, mais pessoas no Canadá e ainda mais em Israel, mas muito poucas na Suécia e assim por diante. Ambos os exemplos tratam de situações muito complexas, ainda que os números transmitam a informação essencial. Por mais potente que seja, é natural que nenhuma estatística vai convencer alguém de que uma determinada conclusão seja verdadeira. Os dados relativos a armas de fogo freqüentemente são varridos para longe, com o aforismo de que “as armas não matam as pessoas, são as pessoas que o fazem”. O objetivo de um estudo bioestatístico é fornecer números que contenham informações sobre certa situação e apresentá-los de tal modo que sejam possíveis interpretações válidas.
1.1 Resumo do Texto Se desejarmos estudar os efeitos de uma nova dieta, poderemos inicialmente medir as variações na massa corporal de todos os indivíduos que foram a ela submetidos, no decorrer do tempo. Analogamente, se quisermos investigar o sucesso de uma terapia para tratar o câncer de próstata, poderemos registrar as durações de tempo que os homens por ela tratados sobrevivem depois de diagnosticada a doença. Essas coleções de números, no entanto, podem exibir uma grande variabilidade e geralmente não são muito informativas, até que comecemos a combiná-las de algum modo. As estatísticas descritivas são métodos para organizar e resumir um conjunto de dados que nos auxilie a descrever os atributos de um grupo ou de uma população. No Capítulo 2, examinamos as técnicas descritivas tabulares e gráficas. As capacidades gráficas dos computadores tornam esse tipo de resumo mais viável do que era no passado e um novo modo de apresentação global está disponível, mesmo para a mais modesta análise. O Capítulo 3 vai adiante das técnicas gráficas apresentadas no Capítulo 2 e introduz as medidas-resumo numéricas. Por definição, um resumo captura somente um aspecto particular dos dados que estão sendo estudados; conseqüentemente, é importante ter-se uma idéia de como o conjunto de medidas é bem representado pelo resumo. Poderíamos, por exemplo, desejar conhecer quanto tempo os pacientes de Aids sobrevivem depois do diagnóstico de uma das infecções oportunistas que caracterizam a doença. Se calcularmos um tempo médio de sobrevivência, ele será representativo de todos os pacientes? Quanto essa medida seria útil no planejamento das necessidades futuras dos serviços de saúde? O Capítulo 3 investiga as técnicas descritivas que ajudam a responder a questões como essas. Dados que assumem somente dois valores distintos exigem atenção especial. Nas ciências da saúde, um dos exemplos mais comuns desse tipo de dado é a categorização de estar vivo ou morto. Se designarmos o primeiro estado 0 e o último 1, seremos capazes de classificar um grupo de indivíduos ao usarmos esses números e tirar a média do resultado. Desse modo, podemos resumir a mortalidade associada com o grupo. O Capítulo 4 trata exclusivamente sobre medidas que assumem somente dois valores. A noção de se dividir um grupo em subgrupos ou em classes menores com base em uma característica como a idade ou o gê-
CAP01:CAP01
26.04.12
09:58
Página 3
Cap. 1 — Introdução
3
nero é também introduzida. Poderíamos querer estudar a mortalidade das mulheres separadamente da dos homens, por exemplo. Finalmente, esse capítulo investiga as técnicas que permitem fazer comparações válidas entre grupos que podem diferir substancialmente em sua composição. O Capítulo 5 introduz a tábua de vida, uma das mais importantes técnicas disponíveis para o estudo das ciências da saúde usadas pelos profissionais da saúde pública para caracterizar o bem-estar de uma população e também pelas companhias de seguro para prever a duração de vida de um indivíduo em particular. Neste capítulo, foi estendido o estudo da mortalidade iniciado no Capítulo 4, para incorporar a duração real até a morte para cada indivíduo, o que requer uma análise mais refinada. Conhecer suas durações até a morte fornece subsídios para calcular a curva de sobrevivência de uma população. Essa medida de longevidade é usada freqüentemente em ensaios clínicos planejados para estudar os efeitos dos vários remédios e tratamentos cirúrgicos durante o tempo de sobrevivência. Em suma, os primeiros cinco capítulos do texto demonstram que a obtenção de informações importantes de uma coleção de números não é obstruída por sua variabilidade, pois os dados freqüentemente exibem certa regularidade. Se olharmos, por exemplo, as taxas anuais de mortalidade de adolescentes dos Estados Unidos em cada um dos últimos dez anos, não veremos muita variação nos números. Seria coincidência ou um indicativo de uma estabilidade natural, subjacente na taxa de mortalidade? Para responder a questões como essa, é necessário estudar os princípios da probabilidade. A teoria da probabilidade está dentro do que é conhecido como um sistema axiomático: começamos com algumas verdades básicas e construímos um sistema lógico ao seu redor. Em sua forma mais pura, o sistema não tem valor prático. Sua praticidade vem do conhecimento de como usar a teoria para produzir aproximações práticas. Uma analogia pode ser extraída da geometria, assunto frente ao qual a maioria dos estudantes é exposta relativamente cedo, em sua vida escolar. A impossibilidade de uma linha reta ideal existir fora de nossa imaginação não tem impedido a construção de prédios maravilhosos baseada nos cálculos geométricos. O mesmo se dá para a teoria da probabilidade: embora não seja prática em sua forma pura, seus princípios básicos — que investigaremos no Capítulo 6 — podem ser aplicados para fornecer um meio de se quantificar a incerteza. Uma aplicação importante da teoria da probabilidade é feita nos testes de diagnósticos. A incerteza está presente porque, apesar das alegações dos fabricantes, nenhum teste disponível é perfeito. Conseqüentemente, há um número considerável de questões importantes que precisam ser respondidas. Podemos, por exemplo, concluir que cada amostra de sangue cujo resultado seja positivo para o HIV abrigue realmente o vírus? Todas as unidades de fornecimento de sangue da Cruz Vermelha apresentam resultados negativos para o HIV; isso significa que não existem amostras contaminadas? Se existirem, quantas poderiam haver? Para responder questões como essas, precisamos confiar no comportamento de médio e longo prazo dos testes de diagnósticos. A teoria da probabilidade nos permite quantificar esse comportamento. O Capítulo 7 estende a noção de probabilidade e introduz algumas distribuições comuns a ela. Esses modelos matemáticos são uma base útil para os métodos estudados no restante do texto. Os primeiros capítulos deste livro focalizam a variabilidade existente em uma coleção de números. Os capítulos subseqüentes movem-se para uma outra forma de variabilidade — a que surge quando extraímos uma amostra de observações de uma população muito maior. Suponha que gostaríamos de saber se um novo remédio é eficaz para tratar altas pressões sangüíneas. Como a população de todos os pacientes que têm hipertensão sangüínea no mundo é muito grande, é extremamente implausível que tenhamos tempo ou recursos necessários para examinar cada pessoa. Em outras situações, a população pode incluir futuros pa-
CAP01:CAP01
26.04.12
4
09:58
Página 4
Princípios de Bioestatística
cientes; poderíamos querer saber como os indivíduos que desenvolverão derradeiramente certa doença, assim como os que atualmente a têm, reagirão a um novo tratamento. Para responder a esse tipo de questão, é comum selecionar uma amostra da população de interesse e, tendo-a por base, inferir o que aconteceria a todo o grupo. Se escolhermos duas amostras diferentes, é improvável que terminemos precisamente com os mesmos conjuntos de números. Analogamente, se estudássemos um grupo de crianças com doença congênita do coração, em Boston, obteríamos resultados diferentes dos estudos sobre um grupo de crianças em Roma. Apesar dessa diversidade, gostaríamos de poder usar uma ou ambas as amostras para extrair conclusões sobre a população inteira dessas crianças. O restante do texto preocupa-se com o tópico da inferência estatística. O Capítulo 8 investiga as propriedades da média amostral quando amostras repetidas são extraídas da população, introduzindo, assim, um importante conceito conhecido como o teorema central do limite, que fornece uma base para se quantificar a incerteza associada às inferências que estão sendo usadas. Para que um estudo tenha algum valor prático, precisamos ser capazes de extrapolar as descobertas para um grupo ou população maior. Para esse fim, os intervalos de confiança e os testes de hipóteses são introduzidos nos Capítulos 9 e 10. São métodos essenciais para se obter uma conclusão relativa à população que amostramos, enquanto se tem algum conhecimento sobre a probabilidade de que a conclusão esteja incorreta. Primeiramente, essas idéias são aplicadas à média de uma população simples. Poderíamos, por exemplo, querer estimar a concentração média de certo poluente em um reservatório de água que abastece as áreas circundantes e determinar se o nível da média verdadeira é maior do que a concentração máxima permitida pela Environmental Protection Agency. No Capítulo 11, a teoria é estendida para a comparação das médias de duas populações; depois, ela é generalizada para a comparação de três ou mais médias, no Capítulo 12. O Capítulo 13 continua a desenvolver conceitos de testes de hipóteses, mas apresenta técnicas que permitem a redução de algumas suposições necessárias para realizar os testes. Os Capítulos 14, 15 e 16 desenvolvem métodos inferenciais que podem ser aplicados aos dados enumerados ou contagens — tais como os números de casos de síndrome de morte súbita de bebês dentre os colocados para dormir em várias posições — em vez de medidas contínuas. A inferência pode também ser usada para explorar a relação entre diversos atributos diferentes. Se um bebê completamente desenvolvido, cuja idade gestacional é de 39 semanas, nasceu pesando 4 quilos, ou 8,8 libras, ninguém ficará surpreso. Entretanto, se sua idade gestacional for somente de 22 semanas, então o peso será causa de alarme. Por quê? Sabemos que o peso ao nascer tende a crescer com a idade gestacional e, embora seja extremamente raro encontrar um bebê pesando 4 quilos na 22a semana, não é incomum na 39a semana. O estudo da extensão no qual dois fatores estão relacionados é conhecido como análise de correlação; esse é o tópico do Capítulo 17. Se desejarmos prever o resultado de um fator com base no valor de outro, a regressão é a técnica apropriada. A regressão linear simples é investigada no Capítulo 18 e é estendida para o cenário de regressão múltipla — na qual dois ou mais fatores são usados para predizer um resultado simples — no Capítulo 19. Se o resultado de interesse pode assumir somente dois valores possíveis, tal como vivo ou morto, uma técnica alternativa precisa ser aplicada; a regressão logística é explorada no Capítulo 20. No Capítulo 21, são introduzidos os métodos inferenciais apropriados para as tábuas de vida. Essas técnicas nos possibilitam extrair conclusões relativas à mortalidade de uma população com base em uma amostra de indivíduos extraídos do grupo. Finalmente, o Capítulo 22 examina uma questão que é fundamental na inferência — o conceito da representatividade de uma amostra. Em qualquer estudo, precisamos estar confiantes de que a amostra escolhida nos fornece um quadro preciso da população da qual é extraída. Diversos métodos estão descritos para selecionar amostras representativas. A noção
CAP01:CAP01
26.04.12
09:58
Página 5
Cap. 1 — Introdução
5
de viés e os vários problemas que podem surgir quando se escolhe uma amostra também são discutidos. O senso comum desempenha importante papel na amostragem, como é feito por todo o livro.
1.2 Exercícios de Revisão 1. Planeje um estudo visando investigar uma questão que você acredita influenciar a saúde do mundo. Descreva brevemente os dados de que precisará, como irá obtê-los, como pretende analisá-los e o método que usará para apresentar os resultados. Guarde esse estudo de planejamento e releia-o depois que completar a leitura deste livro-texto. 2. Considere a seguinte citação com relação ao rápido crescimento da população [3]: 512 milhões de pessoas foram malnutridas em 1986-1987, mais de 460 milhões em 1979-1981.
(a) Suponha que você concorde com a afirmação feita. Justifique o uso desses números. (b) Você está certo de que os números estão corretos? Pensa ser possível que 513 milhões de pessoas foram malnutridas em 1986-987, em vez de 512 milhões? 3. Em adição à afirmação de que “os chineses têm comido macarrão desde 1100 a.C.”, o rótulo em uma caixa de macarrão alega que “os americanos comem 11 libras de macarrão por ano”, enquanto “os italianos comem 60 libras por ano”. Você acredita que essas estatísticas são precisas? Usaria esses números como base para um estudo nutricional?
Bibliografia [1] MCGERVEY, J. D., Probabilities in everyday life. Chicago: Nelson-Hall, 1986. [2] “The Pill’s Easterm Europe Debut”. The Boston Globe, 19 de jan. de 1990, 10. [3] United Nations Population Fund, “Family Planning: Sawing Children, Improving Lives”. Nova York: Jones & Janello.
Outras obras
Este livro é uma introdução aos procedimentos estatísticos
Estatística Geral e Aplicada Giuseppe Milone
baseada em conceitos que preparam os estudantes para conduzir e avaliar pesquisas. Os autores enfatizam conceitos, e não somente fórmulas ou memorizações mecânicas, e usam exemplos práticos e interessantes com dados reais para tornar o material ainda mais atrativo. Com capítulos didáticos, Princípios de Bioestatística utiliza também dados extraídos de estudos publicados para exemplificar conceitos bioestatísticos, discussões revisadas e expandidas de
O Método Fenomenológico na Pesquisa Daniel Augusto Moreira
Método nas Ciências Naturais Sociais Alda Judith Alves-Mazzotti e Fernando Gewandsznajder
muitos tópicos e questões adicionais para auxiliar a clarear conceitos. Esta obra procura mostrar a bioestatística de uma maneira fácil de entender, sem minimizar, no entanto, a importância do assunto. Aplicações Livro-texto para a disciplina estatística aplicada às ciências biológicas e leitura complementar para a disciplina introdução à estatística nos cursos de Medicina, Saúde Pública e Biologia.
ISBN 13 978-85-221-0920-3 ISBN 10 85-221-0920-6
Para suas soluções de curso e aprendizado, visite www.cengage.com.br
9 788522 109203
Pesquisa Médica: A Ética e a Metodologia Sonia Vieira e William Saad Hossne