LO_inferenciaestatistica.pdf
1
04/05/16
10:06
GEORGE CASELLA|ROGER L.BERGER
Livro destinado a alunos de graduação e pós-graduação de cursos que ofereçam a disciplina inferência estatística e àqueles estudantes de outras áreas que contenham cursos introdutórios de estatística, mas que precisam de aprofundamento nos principais conceitos. Recomendado, também, para pesquisadores das várias áreas afins que necessitem de conhecimentos mais elaborados das técnicas estatísticas para a sua correta aplicação.
ISBN 13 978-85-221-0894-7 ISBN 10 85-221-0894-3
Para suas soluções de curso e aprendizado, visite www.cengage.com.br
9 788522 108947
INFERÊNCIA ESTATÍSTICA
Aplicações
Outras obras: Estatística aplicada à administração e economia – Tradução da 6ª edição norte-americana Dennis J. Sweeney, Thomas A. Williams e David R. Anderson
ROGER L.BERGER
O propósito da obra Inferência Estatística – tradução da 2ª edição norte-americana – é desenvolver a teoria estatística (fazendo diferenciação em relação à estatística matemática) a partir dos princípios da teoria da probabilidade. Desenvolvimento lógico, provas, ideias, temas etc. evoluem por meio de argumentos estatísticos, diferente do que acontece em outras obras de mesmo teor, que se baseiam em princípios puramente matemáticos. Os conceitos são apresentados com todo o rigor teórico e há uma série de referências bibliográficas para maiores elucidações. Esta 2ª edição ampliada traz inúmeros conceitos novos que somente são encontrados em artigos científicos, fato que valoriza ainda mais a sua tradução.
GEORGE CASELLA
INFERÊNCIA ESTATÍSTICA
Estatística para economistas – 4ª edição revista e ampliada Rodolfo Hoffmann Probabilidade e estatística para engenharia e ciências – Tradução da 8ª edição norte-americana Jay L. Devore
GEORGE CASELLA ROGER L.BERGER
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local i, global #1)
i
i
Inferência Estatística
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local ii, global #2)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local iii, global #3)
i
i
Inferência Estatística Tradução da 2-a edição norte-americana
George Casella University of Florida Roger L. Berger North Carolina State University
Tradução Solange A. Visconte Revisão Técnica Jorge Oishi Matemático, Mestre em Estatística, Doutor em Estatística Aplicada Professor Aposentado do Departamento de Estatística da Universidade Federal de São Carlos – UFSCar
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local iv, global #4)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local v, global #5)
i
i
Para Anne e Vicki
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local vi, global #6)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local vii, global #7)
i
i
Prefácio à segunda edição
Embora a maioria das citações encontradas neste livro seja de Sir Arthur Conan Doyle, talvez a melhor descrição da vida neste livro deva ser atribuída ao álbum do grupo Grateful Dead, que expressa um sentimento “What long, strange trip it’s been” (“Que longa e estranha viagem tem sido esta”). Os planos para a segunda edição começaram há cerca de seis anos e, por muito tempo, lidamos com questões relacionadas ao que acrescentar e ao que excluir. Felizmente, com o passar do tempo, as respostas se tornaram mais claras, à medida que o fluxo da disciplina de estatística ficava mais nítido. Observamos a tendência afastando-se das elegantes comprovações de casos especiais, em direção a soluções algorítmicas de casos mais complexos e práticos. Isto não diminui a importância da matemática e do rigor; na verdade, descobrimos que estes se tornaram mais importantes. Mas a maneira pela qual eles são aplicados está mudando. Para aqueles que estão familiarizados com a primeira edição, podemos assim resumir brevemente as mudanças que foram feitas. A discussão de métodos assintóticos foi bastante ampliada em seu próprio capítulo. Foi dada maior ênfase à computação e à simulação (veja a Seção 5.5 e o Apêndice sobre álgebra em computadores); a cobertura das técnicas mais aplicáveis foi expandida ou acrescentada (por exemplo, bootstrap, o algoritmo EM, valores de p, regressão logística e regressão robusta); e agora existem muitos novos Itens Diversos e Exercícios. Diminuímos a ênfase de tópicos teóricos mais especializados, como equivariância e teoria da decisão, e reestruturamos parte do material nos capítulos de 3 a 11 para proporcionar clareza. Existem dois aspectos que queremos ressaltar. Primeiro, com relação aos programas de álgebra por computador; embora acreditemos que eles estejam se tornando ferramentas cada vez mais valiosas, não pretendemos forçá-los para o instrutor que não compartilhe desta crença. Desse modo, essa abordagem é “não intrusiva”, no sentido de que somente aparece em um apêndice, com algumas dicas ao longo do livro, quando podem ser úteis. Em segundo lugar, modificamos o sistema de numeração para facilitar o encontro do que se procura. Agora, teoremas, lemas, exemplos e definições estão numerados em sequência; por exemplo, a Definição 7.2.4 é seguida pelo Exemplo 7.2.5, e o Teorema 10.1.3 precede o Exemplo 10.1.4. Os primeiros quatro capítulos receberam apenas pequenas mudanças. Reorganizamos parte do material (em particular, desigualdades e identidades foram separadas), foram acrescentados alguns novos exemplos e exercícios, e houve uma atualização geral do conteúdo. O Capítulo 5 também foi reorganizado, e a seção de convergência foi colocada mais atrás; além disso, foi adicionada uma nova seção sobre a geração de variáveis aleatórias. A abordagem anterior, que foi dada à invariância, nos capítulos 7 a 9 da primeira edição, foi bastante reduzida e incorporada no Capítulo 6, que, por sua vez, passou somente por uma
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local viii, global #8)
i
i
viii
Inferência Estatística
pequena edição (principalmente a inclusão de novos exercícios). O Capítulo 7 foi ampliado e atualizado, e foi inserida uma nova seção sobre o algoritmo EM. O Capítulo 8 também teve uma parte editada e foi atualizado, além de ter sido incluída uma nova seção sobre valores p. No Capítulo 9, demos maior ênfase à pivotagem (percebemos que “garantir um intervalo” era meramente “pivotar a fda”). Além disso, o material que estava no Capítulo 10 da primeira edição (teoria da decisão) foi diminuído, e foram incluídas, nos capítulos apropriados, pequenas seções sobre otimalidade da função perda da estimação pontual, testes de hipóteses e estimação por intervalo. O Capítulo 10 é totalmente novo e pretende apresentar os fundamentos da inferência a partir de grandes amostras, incluindo o método delta, consistência e normalidade assintótica, bootstrap, estimadores robustos, testes de escores etc. O Capítulo 11 trata da clássica ANOVA (análise de variância) simples e regressão linear (que foi abordada em dois diferentes capítulos na primeira edição). Infelizmente, o tópico referente a delineamentos com blocos aleatorizados foi excluído, por razões de espaço. O Capítulo 12 fala sobre regressão com erros nas variáveis e contém material novo a respeito de regressão robusta e regressão logística. Depois de lecionar utilizando a primeira edição deste livro, durante vários anos, sabemos (aproximadamente) o que pode ser abordado em um curso com duração de um ano. A partir da segunda edição, acreditamos que, em um ano, será possível cobrir os seguintes tópicos: Capítulo 1: Capítulo 2: Capítulo 3: Capítulo 4: Capítulo 5:
Seções 1–7 Seções 1–3 Seções 1–6 Seções 1–7 Seções 1–6
Capítulo 6: Capítulo 7: Capítulo 8: Capítulo 9: Capítulo 10:
Seções 1–3 Seções 1–3 Seções 1–3 Seções 1–3 Seções 1, 3, 4
As classes de alunos que iniciarem o curso tendo algum conhecimento sobre probabilidade básica poderão estudar mais do material encontrado nos últimos capítulos. Por fim, é quase impossível agradecermos a todas as pessoas que colaboraram, de alguma maneira, para tornar a segunda edição uma realidade (e nos ajudaram a corrigir os erros cometidos na primeira edição). Agradecemos a todos os nossos alunos, amigos e colegas, que dedicaram seu tempo para nos enviar alguma observação ou e-mail. Muitas pessoas fizeram sugestões importantes, que levaram a mudanças significativas na apresentação. Algumas vezes, essas sugestões foram notas ou comentários breves e, outras, análises mais longas. Algumas foram enviadas há tanto tempo que até mesmo seus autores se esqueceram delas, mas nós não. Nossos agradecimentos a Arthur Cohen, Sir David Cox, Steve Samuels, Rob Strawderman e Tom Wehrly. Também devemos muito a Jay Beder, que nos remeteu inúmeros comentários e sugestões, ao longo dos anos e, possivelmente, conhece a primeira edição melhor do que nós mesmos; e a Michael Perlman e sua classe, que continuam enviando seus comentários e correções enquanto estamos terminando de escrever. Este livro foi visto por diversos editores. Somos gratos a Alex Kugashev, que, em meados da década de 1990, foi o primeiro a sugerir que fizéssemos a segunda edição; à nossa editora, Carolyn Crockett, que constantemente nos encorajou. Talvez, a pessoa mais responsável (além de nós) por este livro seja nosso primeiro editor, John Kimmel, que nos incentivou e também publicou e comercializou a primeira edição. Obrigado, John. George Casella Roger L. Berger
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local ix, global #9)
i
i
Prefácio à primeira edição
Quando alguém descobre que você está escrevendo um livro, faz uma (ou ambas) das duas seguintes perguntas: “Por que você está escrevendo um livro?” e “De que modo seu livro é diferente dos outros que já existem?”. A primeira questão é muito mais fácil de ser respondida. Você está escrevendo um livro porque não se considera totalmente satisfeito com os livros que estão disponíveis. A segunda já e mais difícil, e a resposta não pode ser dada em apenas algumas sentenças; por isso, para não aborrecer seus leitores (que podem estar fazendo esta pergunta somente por cortesia), você tenta dizer alguma coisa breve e espirituosa. Isso, geralmente, não funciona. O propósito deste livro é o desenvolvimento da estatística teórica (fazendo diferenciação em relação à estatística matemática) a partir dos primeiros princípios da teoria da probabilidade. O desenvolvimento lógico, provas, ideias, temas etc., evoluem por meio de argumentos estatísticos. Portanto, começando com os princípios da probabilidade, desenvolvemos a teoria da inferência estatística, utilizando técnicas, definições e conceitos que são estatísticos e são extensões e consequências naturais de conceitos anteriores. Quando iniciamos o projeto para este livro, não tínhamos certeza quanto a se realmente daria certo. O julgamento final referente ao nosso sucesso, naturalmente, fica por conta dos leitores. Este livro é destinado a alunos do primeiro ano de pós-graduação com especialização em estatística ou cujos estudos estejam direcionados a um campo em que a concentração em estatística é desejável. O pré-requisito é que o aluno tenha cursado um ano de cálculo. (É útil, mas não essencial, ter alguma familiaridade com manipulações de matrizes.) Este livro pode ser utilizado para cursos introdutórios de estatística, com duração de dois semestres ou três trimestres. Os primeiros quatro capítulos abrangem os princípios básicos da teoria da probabilidade e apresentam muitos fundamentos que são necessários posteriormente. Os capítulos 5 e 6 são os primeiros sobre estatística. O conteúdo do Capítulo 5 é uma transição (entre probabilidade e estatística) e pode ser o ponto de partida do curso de teoria estatística para alunos com algum conhecimento de probabilidade. O Capítulo 6, de alguma forma, é único, detalhando três princípios estatísticos (suficiência, verossimilhança e invariância) e mostrando como são importantes na modelagem de dados. Nem todos os instrutores abordarão este capítulo em detalhes, embora recomendemos enfaticamente que se dedique algum tempo a esse conteúdo. Em particular, os princípios da verossimilhança e da invariância são tratados detalhadamente. Juntamente com o princípio da suficiência, esses princípios, e o pensamento que os fundamenta, são cruciais para a total compreensão da estatística. Os capítulos 7–9 representam o núcleo central da inferência estatística, estimação (pontual e por intervalo) e teste de hipóteses. Um importante recurso desses capítulos é a divisão em métodos para encontrar as técnicas estatísticas apropriadas e os métodos
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local x, global #10)
i
i
x
Inferência Estatística
de avaliação dessas técnicas. Descobrir e avaliar são de interesse dos teóricos e dos práticos, mas acreditamos que é importante separar essas vertentes. Diferentes interesses são importantes e variadas regras são empregadas. De grande interesse podem ser as seções deste capítulo, intitulado Outras Considerações. Aqui, indicamos como as regras da inferência estatística podem ser relaxadas (como acontece no dia a dia) e, ainda assim, produzir inferências significativas. Muitas das técnicas abordadas nessas seções são aquelas utilizadas em consultorias, úteis na análise e inferência a partir de problemas reais. Os três capítulos finais podem ser considerados como tópicos especiais, embora consideremos que é importante ter alguma familiaridade com o material em qualquer curso de estatística. O Capítulo 10 aprofunda-se na introdução à teoria da decisão e contém o material mais moderno que poderíamos incluir. O Capítulo 11 trata da análise de variância (simples e em blocos aleatorizados), do desenvolvimento da teoria da análise completa a partir da teoria mais simples do tratamento de contrastes. Nossa experiência é de que experimentadores estão mais interessados em inferências a partir de contrastes e que, utilizando os princípios desenvolvidos anteriormente, a maioria dos testes e intervalos pode ser derivada a partir de contrastes. Por fim, o Capítulo 12 fala sobre a teoria da regressão, lidando primeiramente com a regressão linear simples e, então, abordando a regressão com “erros nas variáveis”. Este último tópico é bastante importante, não somente por mostrar sua própria utilidade e suas dificuldades inerentes, mas também por ilustrar as limitações das inferências a partir da regressão ordinária. Como diretrizes mais concretas para fundamentar neste livro um curso com um ano de duração, apresentamos as sugestões a seguir. A partir desta obra, pode haver dois tipos distintos de cursos a serem desenvolvidos. Um deles pode ser chamado de “mais matemático”, sendo apropriado para alunos com especialização em estatística e que tenham uma sólida base em matemática (pelo menos, um ano e meio de cálculo, algum conhecimento de álgebra matricial e, talvez, um curso de análise real). Para estes alunos, recomendamos estudar todo o conteúdo dos Capítulos 1–9 (o que deverá levar aproximadamente 22 semanas) e dedicar o tempo restante para personalizar o curso com tópicos selecionados a partir dos Capítulos 10–12. Assim que os primeiros nove capítulos tiverem sido estudados, o material em cada um dos três últimos é “autossuficiente” e pode ser estudado em qualquer ordem. O outro tipo de curso é “mais prático”, e também pode ser considerado o primeiro curso para alunos avançados em matemática, mas é direcionado a estudantes com um ano de estudo em cálculo e que talvez não tenham especialização em estatística; procura enfatizar os usos mais práticos da teoria estatística, focalizando mais o entendimento dos conceitos estatísticos básicos e a derivação de procedimentos estatísticos razoáveis para diversas situações, e se dedica menos a investigações de otimalidade formal. Este curso omitirá, necessariamente, uma determinada quantidade de material, mas a lista de seções a seguir pode ser estudada em um ano:
Capítulo 1 2 3 4 5 6 7 8
Seções Todas 2.1, 2.2, 2.3 3.1, 3.2 4.1, 4.2, 4.3, 4.5 5.1, 5.2, 5.3.1, 5.4 6.1.1, 6.2.1 7.1, 7.2.1, 7.2.2, 7.2.3, 7.3.1, 7.3.3, 7.4 8.1, 8.2.1, 8.2.3, 8.2.4, 8.3.1, 8.3.2, 8.4
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xi, global #11)
i
i
Prefácio à primeira edição
Capítulo 9 11 12
Seções 9.1, 9.2.1, 9.2.2, 9.2.4, 9.3.1, 9.4 11.1, 11.2 12.1, 12.2
Se o tempo disponível permitir, o material das seções 4.4, 5.5 e 6.1.2, 6.1.3, 6.1.4 poderá ser discutido (com alguma ênfase em detalhes). O conteúdo das seções 11.3 e 12.3 também pode ser considerado. São muitos os exercícios disponíveis, e estes foram obtidos a partir de diversas fontes. Acreditamos que a única maneira de aprender totalmente o conteúdo deste material seja por meio da prática, por isso, proporcionamos muitas oportunidades para sua obtenção. Os exercícios são tão variados quanto possível, e muitos ilustram aspectos que são novos ou complementares ao material do livro. Alguns foram retirados de documentos de pesquisa. (É possível que você se sinta velho ao incluir exercícios baseados em documentos que eram novidade em pesquisa na época em que você estudava!) Embora os exercícios não sejam subdivididos como nos capítulos, a ordem que seguem é semelhante à de cada capítulo. (As subdivisões sempre proporcionam muitas dicas.) Além disso, os exercícios se tornam (mais uma vez, aproximadamente) mais difíceis à medida que sua respectiva numeração aumenta. Como este é um livro introdutório, com uma abordagem relativamente ampla, os tópicos não foram apresentados com muita profundidade. Contudo, sentimos a obrigação de orientar um pouco melhor os leitores nos tópicos que podem ser interessantes. Desse modo, incluímos muitas referências, indicando o caminho para uma compreensão mais profunda de qualquer tópico em particular. Para escrever este livro, utilizamos como base nossos ensinos anteriores e o trabalho atual. Também recorremos a muitas pessoas, às quais somos extremamente gratos. Agradecemos a nossos colegas na Cornell, North Carolina State e Purdue — em particular, a Jim Berger, Larry Brown, Sir David Cox, Ziding Feng, Janet Johnson, Leon Gleser, Costas Goutis, Dave Lansky, George McCabe, Chuck McCulloch, Myra Samuels, Steve Schwager e Shayle Searle, que dedicaram seu tempo e sua experiência à leitura de partes deste manuscrito, ofereceram ajuda e participaram de muitas conversas que levaram a sugestões construtivas. Também agradecemos a Shanti Gupta por sua hospitalidade, e à biblioteca na Purdue, que foi essencial. Somos gratos pela leitura detalhada e pelas sugestões úteis de Shayle Searle e de seus revisores, os anônimos e os não anônimos (Jim Albert, Dan Coster e Tom Wehrly). Além disso, não podemos deixar de agradecer a David Moore e George McCabe, por nos permitir utilizar suas tabelas, e a Steve Hirdt, por nos disponibilizar seus dados. Como este livro foi escrito por duas pessoas, que, na maior parte do tempo estiveram pelo menos a cerca de mil quilômetros de distância, agradecemos, por fim, a Bitnet, por tornar tudo isso possível. George Casella Roger L. Berger
xi
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xii, global #12)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xiii, global #13)
i
i
Sobre o Revisor Técnico
Professor Doutor Jorge Oishi Doutor em estatística aplicada à Saúde Pública pela Faculdade de Saúde Pública da Universidade de São Paulo (FSP-USP), mestre em estatística pelo Instituto de Matemática e Estatística da USP (IME-USP), e licenciado em matemática pelo Instituto de Biociências, Letras e Ciências Exatas da Unesp (Ibilce-Unesp), em São José do Rio Preto. Atualmente aposentado, é professor associado do Departamento de Estatística da Universidade Federal de São Carlos (UFSCar) desde 1977, onde ministrou aulas e foi orientador em vários programas de pós-graduação e orientador de dezenas de alunos dos cursos de mestrado e doutorado. Publicou centenas de artigos nas mais variadas áreas do conhecimento científico e teve participação em trabalhos apresentados em congressos, seminários e workshops. É assessor estatístico de várias equipes de pesquisadores nas áreas de saúde ligadas à UFSCar. Criador do grupo Am&PM (Amostragem e Pesquisa de Mercado), responsável pela preparação prática e orientação de centenas de alunos do bacharelado em estatística da UFSCar, e do grupo PET-Estatística, Programa de Educação Tutorial do MEC, em conjunto com o Departamento de Estatística da UFSCar.
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xiv, global #14)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xv, global #15)
i
i
“Conseguimos chegar às deduções e inferências”, disse Lestrade, dando uma piscada para mim. “Acho que é muito difícil lidar com fatos, Holmes, sem nos perdermos atrás de teorias e fantasias.” Inspetor Lestrade para Sherlock Holmes O Mistério do Vale Boscombe
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xvi, global #16)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xvii, global #17)
i
i
Sumário
1
Teoria da probabilidade 1.1 1.2
1.3 1.4 1.5 1.6 1.7 1.8
2
3
Teoria dos conjuntos Princípios básicos da teoria da probabilidade 1.2.1 Fundamentos axiomáticos 1.2.2 Axioma da Aditividade Finita 1.2.3 O Cálculo de Probabilidades 1.2.4 Contagem 1.2.5 Resultados da enumeração Probabilidade condicional e independência Variáveis aleatórias Funções de distribuição Funções densidade e de probabilidade Exercícios Itens diversos 1.8.1 Bonferroni e além
1 1 5 5 9 9 12 15 18 26 28 32 35 42 42
Transformações e expectâncias
43
2.1 2.2 2.3 2.4 2.5 2.6
43 50 54 62 68 74 74 75
Distribuições de funções de uma variável aleatória Valores esperados Momentos e funções geradoras de momentos Diferenciação sob o sinal da integral Exercícios Itens diversos 2.6.1 Unicidade de sequências de momentos 2.6.2 Outras funções geradoras A função geradora de momentos caracteriza uma 2.6.3 distribuição?
76
Famílias comuns de distribuições
77
3.1 3.2
77 77 77 78 80 83 85 87
Introdução Distribuições discretas Distribuição uniforme discreta Distribuição hipergeométrica Distribuição binomial Distribuição de Poisson Distribuição binomial negativa Distribuição geométrica
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xviii, global #18)
i
i
xviii
Inferência Estatística
3.3
3.4 3.5 3.6
3.7 3.8
4
Variáveis aleatórias múltiplas 4.1 4.2 4.3 4.4 4.5 4.6 4.7
4.8 4.9
5
Distribuições contínuas Distribuição uniforme Distribuição gama Distribuição normal Distribuição beta Distribuição de Cauchy Distribuição lognormal Distribuição exponencial dupla Famílias exponenciais Famílias de locação e de escala Desigualdades e identidades 3.6.1 Desigualdades de probabilidade 3.6.2 Identidades Exercícios Itens diversos 3.8.1 Os postulados de Poisson 3.8.2 Além de Chebychev 3.8.3 Mais sobre famílias exponenciais
Distribuições conjuntas e marginais Distribuições condicionais e independência Transformações bivariadas Modelos hierárquicos e distribuições mistura Covariância e correlação Distribuições multivariadas Desigualdades 4.7.1 Desigualdades numéricas 4.7.2 Desigualdades funcionais Exercícios Itens diversos 4.9.1 O paradoxo da troca 4.9.2 Mais sobre a desigualdade entre as médias aritmética, geométrica e harmônica 4.9.3 O paradoxo de Borel
Propriedades de uma amostra aleatória 5.1 5.2 5.3
5.4 5.5
Conceitos básicos de amostras aleatórias Somas de variáveis aleatórias a partir de uma amostra aleatória Amostragem a partir da distribuição normal 5.3.1 Propriedades da média amostral e da variância 5.3.2 As distribuições derivadas: t -Student e F de Snedecor Estatísticas de ordem Conceitos de convergência 5.5.1 Convergência em probabilidade 5.5.2 Convergência quase certa 5.5.3 Convergência em distribuição 5.5.4 O método delta
88 89 89 92 95 97 98 99 99 104 109 109 111 114 121 121 121 123
125 125 133 141 147 152 160 168 168 170 173 183 183 184 184
185 185 188 195 195 198 201 207 207 209 210 215
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xix, global #19)
i
i
Sumário
5.6
5.7 5.8
6
220 221 225 226 228 238 238 238 239 239 240
Princípios da redução de dados
241
6.1 6.2
241 242 242 249 251 253 258 258 260 264 268 274 274 275 275
6.3
6.4 6.5 6.6
7
Gerando uma amostra aleatória 5.6.1 Métodos diretos 5.6.2 Métodos indiretos 5.6.3 O algoritmo de aceitação/rejeição Exercícios Itens diversos 5.8.1 Mais sobre o Teorema do Limite Central 5.8.2 O viés de S 2 5.8.3 A desigualdade de Chebychev revisitada 5.8.4 Mais sobre a Lei Forte 5.8.5 Monte Carlo via Cadeia de Markov
Introdução O princípio da suficiência 6.2.1 Estatísticas suficientes 6.2.2 Estatísticas suficientes mínimas 6.2.3 Estatísticas ancilares 6.2.4 Estatísticas suficientes, ancilares e completas O princípio da verossimilhança 6.3.1 A função de verossimilhança 6.3.2 O princípio formal da verossimilhança O princípio da equivariância Exercícios Itens diversos 6.6.1 O inverso do Teorema de Basu 6.6.2 Confusão quanto à ancilaridade 6.6.3 Mais sobre suficiência
Estimação pontual
277
7.1 7.2
277 278 278 281 288 291 294 294 297 305 310 316 327 327 328 328 329 330 330
7.3
7.4 7.5
Introdução Métodos para encontrar estimadores 7.2.1 Método dos momentos 7.2.2 Estimadores de máxima verossimilhança 7.2.3 Estimadores de Bayes 7.2.4 O algoritmo EM Métodos de avaliação de estimadores 7.3.1 Erro quadrático médio 7.3.2 Melhores estimadores não viesados 7.3.3 Suficiência e não viés 7.3.4 Otimalidade da função perda Exercícios Itens diversos 7.5.1 Estimadores de momentos e EMVs 7.5.2 Estimativas de Bayes não viesadas 7.5.3 O teorema de Lehmann–Scheffé 7.5.4 Mais sobre o algoritmo EM 7.5.5 Outras verossimilhanças 7.5.6 Outras análises de Bayes
xix
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xx, global #20)
i
i
xx
Inferência Estatística
8
Testando uma hipótese 8.1 8.2
8.3
8.4 8.5
9
Introdução Métodos para encontrar testes 8.2.1 Testes da razão de verossimilhança 8.2.2 Testes Bayesianos 8.2.3 Testes união–interseção e interseção–união Métodos para avaliação de testes 8.3.1 Probabilidades de erro e a função poder 8.3.2 Testes mais poderosos 8.3.3 Tamanhos de testes união–interseção e interseção–união 8.3.4 Valores p 8.3.5 Otimalidade da função perda Exercícios Itens diversos 8.5.1 Função poder monotônica 8.5.2 Razão de verossimilhança como evidência 8.5.3 Valores p e probabilidades a posteriori 8.5.4 Valores p do conjunto de confiança
Estimação intervalar 9.1 9.2
9.3
9.4 9.5
Introdução Métodos para encontrar Estimadores Intervalares 9.2.1 Invertendo uma estatística de teste 9.2.2 Quantidades pivotais 9.2.3 Pivotando a FDA 9.2.4 Intervalos Bayesianos Métodos para avaliação de estimadores intervalares 9.3.1 Tamanho e probabilidade de cobertura 9.3.2 Otimalidade relacionada ao teste 9.3.3 Otimalidade Bayesiana 9.3.4 Otimalidade da função perda Exercícios Itens diversos 9.5.1 Procedimentos de confiança 9.5.2 Intervalos de confiança em distribuições discretas 9.5.3 Teorema de Fieller 9.5.4 E quanto a outros intervalos?
10 Avaliações assintóticas 10.1 Estimação pontual 10.1.1 Consistência 10.1.2 Eficiência 10.1.3 Cálculos e comparações 10.1.4 Erros padrão do bootstrap 10.2 Robustez 10.2.1 A média e a mediana 10.2.2 Estimadores M 10.3 Teste de hipótese 10.3.1 Distribuição assintótica de TRVs 10.3.2 Outros testes com grandes amostras
333 333 334 334 338 339 341 342 346 352 355 358 360 370 370 370 370 371
373 373 376 376 382 385 390 394 395 398 401 403 405 415 415 415 415 416
417 417 417 420 422 427 430 431 433 436 437 440
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxi, global #21)
i
i
Sumário
10.4 Estimação intervalar 10.4.1 Intervalos de máxima verossimilhança aproximados 10.4.2 Outros intervalos com grandes amostras 10.5 Exercícios 10.6 Itens Diversos 10.6.1 Supereficiência 10.6.2 Condições de regularidade adequadas 10.6.3 Mais sobre o bootstrap 10.6.4 Funções de influência 10.6.5 Intervalos bootstrap 10.6.6 Intervalos robustos
11 Análise de variância e análise de regressão 11.1 Introdução 11.2 Análise de variância simples 11.2.1 Suposições de modelo e de distribuição 11.2.2 A clássica hipótese da ANOVA 11.2.3 Inferências relativas a combinações lineares de médias 11.2.4 O teste F da ANOVA 11.2.5 Estimação simultânea de contrastes 11.2.6 Particionamento de somas de quadrados 11.3 Regressão linear simples 11.3.1 Mínimos Quadrados: uma solução matemática 11.3.2 Melhores estimadores lineares não viesados 11.3.3 Suposições de modelos e distribuição 11.3.4 Estimação e teste com erros normais 11.3.5 Estimação e previsão em um x = x 0 específico 11.3.6 Estimação simultânea e faixas de confiança 11.4 Exercícios 11.5 Itens diversos 11.5.1 Teorema de Cochran 11.5.2 Comparações múltiplas 11.5.3 Esboços de blocos completos aleatorizados 11.5.4 Outros tipos de análise de variância 11.5.5 Formatos das faixas de confiança 11.5.6 Paradoxo de Stein
12 Modelos de regressão 12.1 Introdução 12.2 Regressão com erros em variáveis 12.2.1 Relações funcionais e estruturais 12.2.2 Uma solução de mínimos quadrados 12.2.3 Estimação de máxima verossimilhança 12.2.4 Conjuntos de confiança 12.3 Regressão logística 12.3.1 O modelo 12.3.2 Estimação 12.4 Regressão robusta 12.5 Exercícios
444 444 446 451 460 460 461 462 462 464 464
465 465 466 468 469 471 473 476 478 481 483 485 489 491 497 499 502 509 509 509 510 511 511 512
515 515 515 517 518 521 524 527 527 529 532 536
xxi
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxii, global #22)
i
i
xxii
Inferência Estatística
12.6 Itens diversos 12.6.1 O significado de funcional e estrutural 12.6.2 Consistência de mínimos quadrados ordinários em modelos de REV 12.6.3 Variáveis instrumentais nos modelos de REV 12.6.4 Equações de verossimilhança logística 12.6.5 Mais sobre regressão robusta
541 541 542 543 543 544
Apêndice – Álgebra computacional
545
Tabela de distribuições comuns
551
Referências bibliográficas
557
Índice onomástico
575
Índice remissivo
579
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxiii, global #23)
i
i
Lista de tabelas
1.2.1 4.1.1 7.3.1 8.3.1 9.2.1 9.2.2 10.1.1 10.2.1
10.3.1 10.4.1 10.4.2 11.2.1 11.3.1 11.3.2 12.3.1 12.4.1
Número de possíveis arranjos Valores da fp conjunta f (x,y) Três estimadores para p da binomial Contagem de casos de leucemia Dois tipos de erro em teste de hipótese Pivôs de locação–escala Região de aceitação de Sterne e conjunto de confiança Três intervalos de confiança normais de 90% Variâncias do bootstrap e do Método Delta Eficiências relativas assintóticas da mediana/média Estimadores de Huber Eficiências relativas assintóticas do estimador de Huber, k = 1,5 Estatística do TRV de Poisson Poder dos testes robustos Coeficiente de confiança para intervalo pivotal Coeficientes de confiança para intervalos com base no estimador M, de Huber Tabela ANOVA para classificação simples Dados representados na Figura 11.3.1 Tabela ANOVA para regressão linear simples Dados da Challenger Dados de Potoroo Eficiências relativas assintóticas do estimador M para regressão
15 127 316 320 342 383 386 395 429 433 433 435 438 444 447 451 480 484 495 530 533 536
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxiv, global #24)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxv, global #25)
i
i
Lista de figuras
1.2.1 1.2.2 1.5.1 1.5.2 1.6.1 2.1.1 2.1.2 2.3.1 2.3.2 2.3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 3.5.1 3.5.2 3.5.3 3.5.4 4.1.1 4.5.1 4.5.2 4.7.1 4.7.2 5.4.1 5.6.1 5.6.2 5.6.3 7.3.1 7.3.2 8.2.1 8.3.1 8.3.2 8.3.3 8.3.4 9.2.1
Alvo para o Exemplo 1.2.7 Histograma de médias de amostras Fda do Exemplo 1.5.2 Fda geométrica, p = 0,3 Área sob a curva logística Transformação do Exemplo 2.1.2 Fdas crescente e não decrescente Densidades exponenciais Duas fdps com os mesmos momentos Aproximação de Poisson para a binomial Densidade normal padrão Aproximação normal à binomial Densidades beta Densidades beta simétricas Densidade padrão normal e densidade de Cauchy Fdps lognormal e gama Densidades de locação Densidades de locação exponenciais Membros da mesma família de escala Famílias de escala-locação Regiões para o Exemplo 4.1.12 Regiões para os Exemplos 4.5.4 e 4.5.8 Regiões para o Exemplo 4.5.9 Funções convexas Desigualdade de Jensen Região na qual f R,V (r,v) > 0 para o Exemplo 5.4.7 Histograma da fdp exponencial Histograma das variâncias amostrais de Poisson Distribuição beta Comparação de EQM Funções de risco para estimadores de variância Estatística do TRV Funções poder para o Exemplo 8.3.2 Funções poder para o Exemplo 8.3.3 Funções poder para três testes no Exemplo 8.3.19 Função risco para teste no Exemplo 8.3.31 Relação entre intervalos de confiança e região de aceitação
8 18 28 30 34 45 50 55 59 62 94 95 96 96 97 98 105 106 107 107 132 154 158 171 171 207 222 224 225 296 313 336 343 343 352 359 377
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxvi, global #26)
i
i
xxvi
Inferência Estatística
9.2.2 9.2.3 9.2.4 9.2.5 9.3.1 10.1.1 10.3.1 10.4.1 10.4.2 11.3.1 11.3.2 11.3.3 12.2.1 12.2.2 12.2.3 12.3.1 12.4.1
Região de aceitação e intervalo de confiança para o Exemplo 9.2.3 Intervalos de credibilidade do Exemplo 9.2.16 Probabilidades de credibilidade dos intervalos do Exemplo 9.2.16 Probabilidade de cobertura dos intervalos do Exemplo 9.2.16 Três estimadores de intervalo do Exemplo 9.2.16 Eficiência assintótica relativa para estimadores da média da gama Histograma do TRV de Poisson Intervalos do TRV para proporção binomial Probabilidades de cobertura para procedimentos de confiança nominais de 0,9 da Binomial Distâncias verticais que são medidas por SQR Descrição geométrica do MELNV Faixas de Scheffé, intervalo t e intervalos de Bonferroni Distância minimizada pelos mínimos quadrados ortogonais Três retas de regressão Estatística F de Creasy–Williams Curva logística dos dados da Challenger Mínimos quadrados, DMA e ajustes de estimativa M
379 391 392 393 402 427 438 449 450 484 488 501 519 520 526 530 534
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxvii, global #27)
i
i
Lista de exemplos
1.1.3 1.2.2 1.2.3 1.2.5 1.2.7 1.2.10 1.2.12 1.2.13 1.2.15 1.2.18 1.2.19 1.2.20 1.3.1 1.3.3 1.3.4 1.3.6 1.3.8 1.3.10 1.3.11 1.3.13 1.4.2 1.4.3 1.4.4 1.5.2 1.5.4 1.5.5 1.5.6 1.5.9 1.6.2 1.6.4 2.1.1 2.1.2 2.1.4 2.1.6 2.1.7 2.1.9
Operações com eventos Sigma Álgebra – I Sigma Álgebra – II Definindo probabilidades – I Definindo probabilidades – II Desigualdade de Bonferroni Loteria – I Torneio Loteria – II Pôquer Amostragem com reposição Calculando uma média Quatro ases Continuação do Exemplo 1.3.1 Os três prisioneiros Codificação Chevalier de Meré Lançando dois dados Letras Três lançamentos de moedas – I Variáveis aleatórias Três lançamentos de moedas – II Distribuição de uma variável aleatória Lançamento de três moedas Lançamento de moeda até obter cara Fda contínua Fda com saltos Variáveis aleatórias identicamente distribuídas Probabilidades geométricas Probabilidades logísticas Transformação binomial Transformação uniforme Relação exponencial uniforme – I Fdp gama invertida Transformação quadrática Relação normal qui-quadrada
3 6 6 7 8 10 12 12 13 15 16 17 19 19 20 22 23 24 24 25 26 27 27 28 29 30 31 31 32 34 44 45 46 47 48 49
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxviii, global #28)
i
i
xxviii
Inferência Estatística
2.2.2 2.2.3 2.2.4 2.2.6 2.2.7 2.3.3 2.3.5 2.3.8 2.3.9 2.3.10 2.3.13 2.4.5 2.4.6 2.4.7 2.4.9 3.2.1 3.2.3 3.2.4 3.2.5 3.2.6 3.2.7 3.3.1 3.3.2 3.4.1 3.4.3 3.4.4 3.4.6 3.4.8 3.4.9 3.5.3 3.6.2 3.6.3 3.6.6 3.6.9 4.1.2 4.1.4 4.1.5 4.1.7 4.1.8 4.1.9 4.1.11 4.1.12 4.2.2 4.2.4 4.2.6 4.2.8 4.2.9 4.2.11 4.2.13 4.3.1
Média da exponencial Média da binomial Média de Cauchy Minimizando a distância Relação exponencial uniforme – II Variância da exponencial Variância da binomial Fgm da gama Fgm da binomial Momentos não únicos Aproximação de Poisson Intercâmbio entre integração e diferenciação – I Intercâmbio entre integração e diferenciação – II Intercâmbio entre soma e diferenciação Continuação do Exemplo 2.4.7 Amostragem por aceitação Probabilidades com dados Tempo de espera Aproximação de Poisson Amostragem binomial inversa Tempos de falha Relação Gama–Poisson Aproximação normal Família exponencial binomial Média e variância da binomial Família exponencial normal Continuação do Exemplo 3.4.4 Uma família exponencial curva Aproximações normais Família de locação exponencial Ilustrando Chebychev Uma desigualdade de probabilidade normal Momentos normais de ordem superior Momentos de Poisson de ordem superior Espaço amostral para dados Continuação do Exemplo 4.1.2 Fp conjunta para dados Fp marginal para dados Probabilidades com dados Mesmas marginais, fp conjunta diferente Calculando probabilidades conjuntas – I Calculando probabilidades conjuntas – II Calculando probabilidades condicionais Calculando fdp condicional Verificando a independência – I Verificando a independência – II Modelo de probabilidade conjunta Expectâncias de variáveis independentes Fgm de uma soma de variáveis normais Distribuição da soma de variáveis de Poisson
51 51 52 53 54 54 56 57 58 59 61 64 65 66 67 80 82 84 85 87 88 90 94 100 101 101 102 103 103 106 110 110 112 113 126 127 128 129 129 130 131 132 134 135 137 138 139 140 140 142
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxix, global #29)
i
i
Lista de exemplos
4.3.3 4.3.4 4.3.6 4.4.1 4.4.2 4.4.5 4.4.6 4.4.8 4.5.4 4.5.8 4.5.9 4.6.1 4.6.3 4.6.8 4.6.13 4.7.4 4.7.8 5.1.2 5.1.3 5.2.8 5.2.10 5.2.12 5.3.5 5.3.7 5.4.5 5.4.7 5.5.3 5.5.5 5.5.7 5.5.8 5.5.11 5.5.16 5.5.18 5.5.19 5.5.22 5.5.23 5.5.25 5.5.27 5.6.1 5.6.2 5.6.3 5.6.4 5.6.5 5.6.6 5.6.7 5.6.9 6.2.3 6.2.4 6.2.5 6.2.7
Distribuição do produto de variáveis beta Soma e diferença de variáveis normais Distribuição da razão de variáveis normais Hierarquia binomial – Poisson Continuação do Exemplo 4.4.1 Generalização do Exemplo 4.4.1 Hierarquia betabinomial Continuação do Exemplo 4.4.6 Correlação – I Correlação – II Correlação – III Fdp multivariada Fp multivariada Fgm de uma soma de variáveis gama Mudança multivariada de variáveis Desigualdade de covariância Uma desigualdade para médias Fdp amostra exponencial Modelo de população finita Distribuição da média Soma das variáveis aleatórias de Cauchy Soma das variáveis aleatórias de Bernoulli Distribuição da razão de variâncias Continuação do Exemplo 5.3.5 Fdp da estatística de ordem uniforme Distribuição da amplitude média e da amplitude Consistência de S 2 Consistência de S Convergência quase certa Convergência em probabilidade, não quase certamente Máximo de uniformes Aproximação normal à binomial negativa Aproximação normal com variância estimada Estimando a chance (odd) Continuação do Exemplo 5.5.19 Média e variância aproximadas Continuação do Exemplo 5.5.23 Momentos de um estimador razão Tempo de vida exponencial Continuação do Exemplo 5.6.1 Transformação Integral de Probabilidade Algoritmo de Box-Muller Geração da variável aleatória binomial Distribuição da variância de Poisson Geração da variável aleatória beta – I Geração da variável aleatória beta – II Estatística suficiente binomial Estatística suficiente normal Estatísticas de ordem suficientes Continuação do Exemplo 6.2.4
143 144 146 147 147 149 151 152 154 157 157 161 163 165 167 169 172 186 188 192 193 194 200 201 205 206 208 209 209 209 210 213 214 215 216 217 217 219 220 221 221 223 223 224 225 227 243 244 245 246
xxix
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxx, global #30)
i
i
xxx
Inferência Estatística
6.2.8 6.2.9 6.2.12 6.2.14 6.2.15 6.2.17 6.2.18 6.2.19 6.2.20 6.2.22 6.2.23 6.2.26 6.2.27 6.3.2 6.3.3 6.3.4 6.3.5 6.3.7 6.4.1 6.4.3 6.4.5 6.4.6 7.2.1 7.2.2 7.2.3 7.2.5 7.2.6 7.2.7 7.2.8 7.2.9 7.2.11 7.2.12 7.2.13 7.2.14 7.2.16 7.2.17 7.2.18 7.2.19 7.3.3 7.3.4 7.3.5 7.3.6 7.3.8 7.3.12 7.3.13 7.3.14 7.3.16 7.3.18 7.3.21 7.3.22
Estatística suficiente uniforme Estatística suficiente normal, ambos os parâmetros são desconhecidos Duas estatísticas suficientes normais Estatística suficiente normal mínima Estatística suficiente uniforme mínima Estatística ancilar uniforme Estatística ancilar da família de locação Estatística ancilar da família de escala Precisão ancilar Estatística suficiente e completa binomial Estatística suficiente e completa uniforme Utilizando o Teorema de Basu – I Utilizando o Teorema de Basu – II Verossimilhança binomial negativa Distribuição fiducial normal Função de evidência Experimento binomial/binomial negativa Continuação do Exemplo 6.3.5 Equivariância binomial Continuação do Exemplo 6.4.1 Conclusão do Exemplo 6.4.1 Invariância de locação normal Método dos momentos da normal Método dos momentos da binomial Aproximação de Satterthwaite Verossimilhança da normal Continuação do Exemplo 7.2.5 EMV de Bernoulli Conjunto de valores de EMV restrito EMV da binomial, número de tentativas desconhecido EMVs de normais, µ e σ desconhecidos Continuação do Exemplo 7.2.11 Continuação do Exemplo 7.2.2 Estimação de Bayes da binomial Estimadores de Bayes da normal Múltiplos índices de Poisson Continuação do Exemplo 7.2.17 Conclusão do Exemplo 7.2.17 EQM da normal Continuação do Exemplo 7.3.3 EQM do estimador de Bayes da binomial EQM de estimadores equivariantes Estimação não viesada da Poisson Conclusão do Exemplo 7.3.8 Estimador não viesado para a escala da uniforme Limite de variância da normal Continuação do Exemplo 7.3.14 Condicionamento em uma estatística não suficiente Estimadores não viesados de zero Continuação do Exemplo 7.3.13
247 248 249 250 251 252 252 253 253 254 255 257 257 259 260 261 261 263 265 266 267 267 279 279 280 282 282 283 283 284 286 287 288 289 290 291 292 293 295 295 296 297 298 302 302 303 304 306 308 308
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxxi, global #31)
i
i
Lista de exemplos
7.3.24 7.3.25 7.3.26 7.3.27 7.3.28 7.3.29 7.3.30 8.2.2 8.2.3 8.2.5 8.2.6 8.2.7 8.2.8 8.2.9 8.3.2 8.3.3 8.3.4 8.3.7 8.3.8 8.3.10 8.3.14 8.3.15 8.3.18 8.3.19 8.3.20 8.3.22 8.3.25 8.3.28 8.3.29 8.3.30 8.3.31 9.1.2 9.1.3 9.1.6 9.2.1 9.2.3 9.2.4 9.2.5 9.2.7 9.2.8 9.2.9 9.2.10 9.2.11 9.2.13 9.2.15 9.2.16 9.2.17 9.2.18 9.3.1 9.3.3
Melhor estimador não viesado da binomial Funções risco da binomial Risco da variância da normal Estimação da variância utilizando a perda de Stein Duas regras de Bayes Estimativa de Bayes da normal Estimativa de Bayes da binomial TRV da normal TRV da exponencial TRV e suficiência TRV da normal com variância desconhecida Teste Bayesiano da normal Teste união–interseção da normal Amostragem por aceitação Função poder da binomial Função poder da normal Continuação do Exemplo 8.3.3 Tamanho do TRV Tamanho do teste união–interseção Conclusão do Exemplo 8.3.3 Teste UMP da binomial Teste UMP da normal Continuação do Exemplo 8.3.15 Não existência de teste UMP Teste não viesado Uma equivalência Teste de interseção–união Valor p bilateral da normal Valor p unilateral da normal Teste Exato de Fisher Risco do Teste UMP Estimador intervalar Continuação do Exemplo 9.1.2 Estimador intervalar de escala uniforme Invertendo um teste normal Invertendo um TRV Limite de confiança unilateral normal Limite de confiança unilateral binomial Pivôs de locação–escala Pivô gama Continuação do Exemplo 9.2.8 Intervalo pivotal normal Conjunto binomial de menor comprimento Intervalo exponencial de locação Estimador de intervalo da Poisson Conjunto de credibilidade de Poisson Probabilidade de credibilidade e de cobertura da Poisson Cobertura de um conjunto de credibilidade normal Otimizando o comprimento Otimizando o comprimento esperado
309 312 312 313 314 315 315 335 336 337 338 339 340 341 342 343 344 345 345 346 349 349 350 351 352 353 355 356 356 357 359 374 374 375 376 378 380 381 382 383 384 384 386 388 389 391 392 393 395 397
xxxi
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxxii, global #32)
i
i
xxxii
Inferência Estatística
9.3.4 9.3.6 9.3.8 9.3.11 9.3.12 9.3.13 10.1.2 10.1.4 10.1.8 10.1.10 10.1.13 10.1.14 10.1.15 10.1.17 10.1.18 10.1.19 10.1.20 10.1.21 10.1.22 10.2.1 10.2.3 10.2.4 10.2.5 10.2.6 10.2.7 10.3.2 10.3.4 10.3.5 10.3.6 10.3.7 10.4.1 10.4.2 10.4.3 10.4.4 10.4.5 10.4.6 10.4.7 10.4.8 10.4.9 10.6.2 11.2.1 11.2.3 11.2.6 11.2.9 11.2.12 11.3.1 11.3.4 12.2.1 12.3.1 12.3.2
Intervalo pivotal mais curto Limite de confiança UMP Continuação do Exemplo 9.3.6 Região de Poisson com MDP Região MDP normal Estimador intervalar normal Consistência de X¯ Continuação do Exemplo 10.1.2 Variâncias limite Variâncias de misturas de grandes amostras Normalidade e consistência assintóticas Variância aproximada da binomial Continuação do Exemplo 10.1.14 EARs de estimadores de Poisson Estimando uma média da gama Obtendo uma variância bootstrap Obtendo a variância bootstrap de uma binomial Conclusão do Exemplo 10.1.20 Bootstrap paramétrico Robustez da média amostral Normalidade assintótica da mediana EARs da mediana em relação à média Estimador de Huber Distribuição limite do estimador de Huber EAR do estimador de Huber TRV de Poisson TRV da Multinomial Testes binomiais com grandes amostras Teste de escore binomial Testes com base no estimador de Huber Continuação do Exemplo 10.1.14 Intervalo de escore binomial Intervalo de TRV binomial Intervalo aproximado Intervalo de Poisson aproximado Mais sobre o intervalo de escore binomial Comparação de intervalos binomiais Intervalos com base no estimador de Huber Intervalo binomial negativo Funções de influência da média e da mediana ANOVA simples A hipótese da ANOVA Contrastes da ANOVA Diferenças em pares Continuação do Exemplo 11.2.1 Previsão da produção de uvas Continuação do Exemplo 11.3.1 Estimativa da pressão atmosférica Dados sobre a Challenger Dados sobre a Challenger (continuação)
397 399 400 402 402 404 418 419 420 421 422 423 424 425 426 427 428 428 429 431 432 433 433 435 435 438 439 441 442 443 445 446 446 447 447 448 449 450 451 463 466 469 472 476 480 482 495 516 529 531
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxxiii, global #33)
i
i
Lista de exemplos
12.4.1 12.4.2 12.4.3 12.4.4 12.4.5 A.0.1 A.0.2 A.0.3 A.0.4 A.0.5 A.0.6 A.0.7 A.0.8
Robustez das estimativas de mínimos quadrados Observações catastróficas Normalidade assintótica do estimador com DMA Estimador M da regressão EARs da simulação de regressão Amostragem não ordenada Transformação univariada Transformações bivariadas Probabilidade normal Densidade de uma soma Quarto momento da soma de uniformes EAR para uma média gama Limite de fgms qui-quadradas
532 533 534 536 536 545 546 546 547 548 549 550 550
xxxiii
i
i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local xxxiv, global #34)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 1, global #35)
i
i
1
Teoria da probabilidade
“É possível que você nunca consiga, por exemplo, prever o que qualquer pessoa fará, mas pode dizer com precisão o que caberá, a um número médio de pessoas, fazer. Os indivíduos variam, mas as porcentagens permanecem constantes. Assim falam os estatísticos.” Sherlock Holmes (O signo dos quatro)
A teoria da probabilidade é a base sobre a qual toda a estatística é desenvolvida, fornecendo um meio para modelar populações, experimentos ou, praticamente, qualquer outra coisa que possa ser considerada como um fenômeno aleatório. Por meio desses modelos, os estatísticos são capazes de fazer inferências sobre populações; inferências estas baseadas no exame de somente uma parte do todo. A teoria da probabilidade tem uma longa e rica história, que remonta, pelo menos, ao século XVII, quando, a pedido de seu amigo, Chevalier de Meré, Pascal e Fermat desenvolveram uma fórmula matemática das probabilidades dos jogos de azar. O objetivo deste capítulo não é apresentar uma introdução completa à teoria da probabilidade; esta seria uma tentativa temerária em um espaço tão pequeno. Em vez disso, a intenção é descrever algumas das ideias básicas desta teoria, que são fundamentais para o estudo da estatística. Assim como a estatística é desenvolvida com base na teoria da probabilidade, esta, por sua vez, é fundamentada na teoria dos conjuntos, que é por onde este capítulo começa.
1.1
TEORIA DOS CONJUNTOS
Um dos principais objetivos de um estatístico é obter conclusões sobre uma população de objetos pela condução de um experimento. A primeira etapa, nesta tarefa, é identificar os possíveis resultados ou, como diz a terminologia estatística, o espaço amostral. Definição 1.1.1 O conjunto S de todos os possíveis resultados de um determinado experimento é chamado de espaço amostral do experimento. Se o experimento consiste em lançar uma moeda, o espaço amostral contém dois resultados: cara(Ca) e coroa(Co); portanto, S = {Ca, Co}.
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 2, global #36)
i
i
2
Inferência Estatística
Se, por outro lado, o experimento consiste em observar os escores SAT ∗ referentes a estudantes selecionados aleatoriamente em uma determinada universidade, o espaço amostral seria o conjunto de números inteiros positivos entre 200 e 800, que são múltiplos de 10, ou seja, S = {200, 210, 220, . . . , 780, 790, 800}. Por fim, considere um experimento no qual a observação é o tempo de reação a um determinado estímulo. Neste caso, o espaço amostral consistiria em todos os números reais positivos, isto é, S = (0, ∞). Podemos classificar espaços amostrais em dois tipos, de acordo com o número de elementos que eles contêm. Espaços amostrais podem ser contáveis ou não contáveis; se os elementos de um espaço amostral forem colocados em correspondência 1–1 com um subconjunto de números inteiros, o espaço amostral será contável. Naturalmente, se este espaço contiver somente um número finito de elementos, ele é contável. Assim, os espaços amostrais para o lançamento de moedas e para o escore SAT são, ambos, contáveis (na verdade são finitos), ao passo que aquele para o tempo de reação é não contável, uma vez que os números positivos reais não podem ser colocados em correspondência 1–1 com os números inteiros. Contudo, se aproximarmos o tempo de reação para o segundo mais próximo, então o espaço amostral será (em segundos) S = {0, 1, 2, 3, . . .}, que é contável. Esta distinção entre espaços amostrais contáveis e não contáveis é importante somente no sentido de que ela define o modo pelo qual as probabilidades podem ser atribuídas. Na maioria das vezes, isto não causa problemas, embora a abordagem matemática das situações seja diferente. Em um nível filosófico, seria possível argumentar que somente pode haver espaços amostrais contáveis, uma vez que não se pode fazer medições com uma precisão infinita. (Um espaço amostral consistindo em, digamos, todos os números de 10 dígitos, é contável.) Embora, na prática, isto seja verdadeiro, métodos probabilísticos e estatísticos associados com espaços amostrais não contáveis são, em geral, menos problemáticos que os métodos para os contáveis e proporcionam uma aproximação melhor da verdadeira situação (contável). Uma vez que o espaço amostral tiver sido definido, estamos em uma posição que nos permite considerar conjuntos de possíveis resultados de um experimento. Definição 1.1.2 Um evento é qualquer conjunto de possíveis resultados de um experimento, ou seja, qualquer subconjunto de S (incluindo o próprio S ). Consideremos que A seja um evento, um subconjunto de S . Dizemos que o evento A ocorre se o resultado do experimento estiver no conjunto A . Quando falamos de probabilidades, geralmente estamos nos referindo à probabilidade de um evento, e não de um conjunto. Mas podemos utilizar os termos de forma intercambiável. Primeiro, precisamos definir formalmente as duas seguintes relações, o que nos permite ordenar e equiparar conjuntos: A ⊂ B ⇔ x ∈ A ⇒ x ∈ B;
(contenção)
A = B ⇔ A ⊂ B e B ⊂ A.
(igualdade)
Considerando dois eventos quaisquer (ou conjuntos) A e B , temos as seguintes operações elementares com conjuntos: União: a união de A e B , escrita como A ∪ B , é o conjunto de elementos que pertence a A ou B , ou a ambos: A ∪ B = {x : x ∈ A ou x ∈ B }. ∗
O SAT (Scholastic Assessment Test) é um exame semelhante ao vestibular brasileiro que é aplicado a estudantes nos Estados Unidos e serve como critério de admissão para universidades norte-americanas.
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 3, global #37)
i
i
Teoria da probabilidade
Interseção: a interseção de A e B , escrita como A ∩ B , é o conjunto de elementos que pertencem tanto a A como a B : A ∩ B = {x : x ∈ A e x ∈ B }.
Complementação: o complemento de A , escrito como A c , é o conjunto de todos os elementos que não estão em A : A c = {x : x ∉ A}.
Exemplo 1.1.3 Operações com eventos Considere o experimento de selecionar uma carta aleatoriamente a partir de um baralho padrão e anotar seu naipe: copas (C), espadas (E), ouro (O) ou paus (P). O espaço amostral é S = {C,E,O,P},
e alguns eventos possíveis são A = {C,E} e B = {E,O,P}.
A partir desses eventos, podemos formar A ∪ B = {C,E,O,P}, A ∩ B = {E} e A c = {O,P}.
Além disso, observe que A ∪ B = S (o evento S ) e (A ∪ B )c = ;, onde ; denota o conjunto vazio (o conjunto que não tem nenhum elemento).
As operações elementares com conjuntos podem ser combinadas, de modo semelhante ao que acontece com a adição e a multiplicação. Desde que se mantenha o devido cuidado, é possível tratar conjuntos como se fossem números. Podemos agora estabelecer as seguintes propriedades úteis das operações com conjuntos. Teorema 1.1.4 Para três eventos quaisquer, A , B e C , definidos em um espaço amostral S , a. Comutatividade A ∪ B = B ∪ A, A ∩ B = B ∩ A; b. Associatividade
A ∪ (B ∪C ) = (A ∪ B ) ∪C , A ∩ (B ∩C ) = (A ∩ B ) ∩C ;
c. Leis distributivas
A ∩ (B ∪C ) = (A ∩ B ) ∪ (A ∩C ), A ∪ (B ∩C ) = (A ∪ B ) ∩ (A ∪C );
d. Lei DeMorgan
(A ∪ B )c = A c ∩ B c , (A ∩ B )c = A c ∪ B c .
Prova: A prova da maior parte deste teorema é registrada no Exercício 1.3. Além disso, os exercícios 1.9 e 1.10 generalizam o teorema. No entanto, para ilustrar a técnica, provaremos a Lei Distributiva: A ∩ (B ∪C ) = (A ∩ B ) ∪ (A ∩C ). (Pode ser que você esteja familiarizado com o uso de diagramas de Venn para “provar” teoremas na teoria dos conjuntos. Advertimos que, embora estes diagramas sejam, algumas vezes, úteis na visualização de uma situação, eles não constituem uma prova formal.) Para
3
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 4, global #38)
i
i
4
Inferência Estatística
provar que dois conjuntos são iguais, precisa ser demonstrado que cada conjunto contém o outro. Então, formalmente, A ∩ (B ∪C ) = {x ∈ S : x ∈ A e x ∈ (B ∪C )}; (A ∩ B ) ∪ (A ∩C ) = {x ∈ S : x ∈ (A ∩ B ) ou x ∈ (A ∩C )}.
Em primeiro lugar, demonstramos que A ∩ (B ∪ C ) ⊂ (A ∩ B ) ∪ (A ∩ C ). Vamos supor que x ∈ (A ∩ (B ∪ C )). Pela definição de interseção, deve ocorrer que x ∈ (B ∪ C ), ou seja, ou x ∈ B ou x ∈ C . Como x também deve estar em A , temos que x ∈ (A ∩ B ) ou x ∈ (A ∩C ); portanto, x ∈ ((A ∩ B ) ∪ (A ∩C )) ,
e a contenção está estabelecida. Agora, assuma que x ∈ ((A ∩ B ) ∪ (A ∩ C )). Isto implica que x ∈ (A ∩ B ) ou x ∈ (A ∩ C ). Se x ∈ (A ∩ B ), então x está em A e B . Como x ∈ B, x ∈ (B ∪C ), portanto, x ∈ (A ∩ (B ∪C )). Se, por outro lado, x ∈ (A ∩C ), o argumento é similar e, novamente, concluímos que x ∈ (A ∩(B ∪C )). Deste modo, estabelecemos que (A ∩ B ) ∪ (A ∩C ) ⊂ A ∩ (B ∪C ), mostrando a contenção na outra direção e, assim, provando a Lei Distributiva. ■ As operações de união e interseção também podem ser ampliadas para sequências infinitas de conjuntos. Se A 1 ,A 2 ,A 3 , . . . é uma sequência de conjuntos, todos eles definidos em um espaço amostral S , então ∞ [
A i = {x ∈ S : x ∈ A i para algum i },
i =1 ∞ \
A i = {x ∈ S : x ∈ A i para todo i }.
i =1
Por exemplo, supondo que S = (0,1] e definindo A i = [(1/i ),1], então ∞ [ i =1
∞ \ i =1
Ai =
∞ [
[(1/i ),1] = {x ∈ (0,1] : x ∈ [(1/i ),1] para algum i }
i =1
= {x ∈ (0,1]} = (0,1]; ∞ \ A i = [(1/i ),1] = {x ∈ (0,1] : x ∈ [(1/i ),1] para todo i } i =1
= {x ∈ (0,1] : x ∈ [1,1]} = {1}.
(o ponto 1)
Também é possível definir uniões e interseções envolvendo sequências não contáveis (famílias) de conjuntos. Se Γ é um conjunto-índice (um conjunto de elementos a ser utilizado como índice), então [ A a = {x ∈ S : x ∈ A a para algum a}, a∈Γ
\
A a = {x ∈ S : x ∈ A a para todo a}.
a∈Γ
Se, por exemplo, considerarmos Γ = {todos os números reais positivos} e A a = (0,a], então ∪a∈Γ A a = (0,∞) é uma união não contável. Embora uniões e interseções não contáveis não representem um papel de maior importância em estatística, às vezes elas proporcionam um mecanismo útil para a obtenção de uma resposta (veja a Seção 8.2.3). Por fim, discutiremos a ideia de uma partição do espaço amostral. Definição 1.1.5 Dois eventos A e B são disjuntos (ou mutuamente exclusivos) se A ∩ B = ;. Os eventos A 1 ,A 2 , . . . são disjuntos dois a dois (ou mutuamente exclusivos) se A i ∩ A j = ; para todo i 6= j .
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 5, global #39)
i
i
Teoria da probabilidade
Conjuntos disjuntos são aqueles que não têm pontos em comum. Se desenharmos um diagrama de Venn para dois conjuntos disjuntos, eles não irão se sobrepor. A sequência A i = [i ,i + 1),
i = 0,1,2, . . . ,
consiste em conjuntos disjuntos dois a dois. Observe também que ∪∞ A = [0,∞). i =0 i Definição 1.1.6 Se A 1 ,A 2 , . . . são disjuntos dois a dois e ∪∞ A = S , então a sequência A 1 ,A 2 , . . . forma uma i =1 i partição de S . Os conjuntos A i = [i ,i + 1) formam uma partição de [0, ∞). Em geral, as partições são muito úteis, permitindo a divisão do espaço amostral em pequenas partes, não sobrepostas.
1.2
PRINCÍPIOS BÁSICOS DA TEORIA DA PROBABILIDADE
Quando um experimento é realizado, o resultado é um elemento do espaço amostral. Se o experimento for realizado algumas vezes, poderão ocorrer diferentes resultados a cada vez ou alguns resultados podem se repetir. Esta “frequência de ocorrência” de um resultado pode ser considerada como uma probabilidade. Resultados mais prováveis ocorrem com mais frequência. Se os resultados de um experimento podem ser descritos probabilisticamente, estamos no caminho certo para analisá-lo estatisticamente. Nesta seção, descrevemos alguns dos princípios básicos da teoria da probabilidade. Não definimos probabilidades em termos de frequências, mas, em vez disso, adotamos a abordagem axiomática, que é matematicamente mais simples. Como veremos, esta abordagem axiomática não é direcionada às interpretações de probabilidades, mas diz respeito somente ao fato de que as probabilidades são definidas por uma função que satisfaz os axiomas. Interpretações das probabilidades são outro assunto. A “frequência de ocorrência” de um evento é exemplo de uma interpretação de probabilidade em particular. Outra possível interpretação é a considerada subjetiva, pela qual, em vez de pensar na probabilidade como frequência, pensamos como se fosse uma crença na possibilidade de ocorrência de um evento.
1.2.1
Fundamentos axiomáticos
Para cada evento A no espaço amostral S queremos associar a A um número entre zero e um que será chamado de probabilidade de A , denotado por P (A). Pareceria natural definir o domínio de P (o conjunto onde os argumentos da função P (·) são definidos) como todos os subconjuntos de S ; isto é, para cada A ⊂ S definimos P (A) como a probabilidade de que A ocorra. Infelizmente, não é tão simples assim. Existem algumas dificuldades técnicas a ser superadas. Não iremos nos ater a esses aspectos técnicos; embora sejam importantes, eles geralmente são de maior interesse para os probabilistas do que para os estatísticos. Contudo, um bom entendimento de estatística requer, pelo menos, alguma familiaridade com o que segue. Definição 1.2.1 Uma família de subconjuntos de S é chamada de sigma álgebra (ou campo de Borel), denotada por B , se satisfizer as três seguintes propriedades: a. ; ∈ B (o conjunto vazio é um elemento de B ). b. Se A ∈ B , então A c ∈ B (B é fechado, sob complementação). c. Se A 1 ,A 2 , . . . ∈ B , então ∪∞ A ∈ B (B é fechado, sob uniões contáveis). i =1 i
5
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 6, global #40)
i
i
6
Inferência Estatística
O conjunto vazio ; é subconjunto de qualquer conjunto. Portanto, ; ⊂ S . A propriedade (a) estabelece que este subconjunto está sempre em uma sigma álgebra. Como S = ;c , as propriedades (a) e (b) implicam que S também está sempre em B . Além disso, a partir das Leis de DeMorgan, segue que B é fechado sob interseções contáveis. Se A 1 ,A 2 , . . . ∈ B , então A c1 ,A c2 , . . . ∈ B pela propriedade (b) e, portanto, ∪∞ A c ∈ B . Entretanto, utilizando a Lei de i =1 i DeMorgan (como no Exercício 1.9), temos à !c ∞ ∞ [ \ c Ai = Ai . (1.2.1) i =1
i =1
Assim, novamente, pela propriedade (b), ∩∞ A ∈ B. i =1 i Associado ao espaço amostral S podemos ter muitas diferentes sigmas álgebras. Por exemplo, a sequência dos dois conjuntos {;,S} é uma, geralmente chamada de sigma álgebra trivial. A única sigma álgebra com que nos preocuparemos aqui é a menor, que contém todos os conjuntos abertos, em um determinado espaço amostral S .
Exemplo 1.2.2 Sigma Álgebra – I Se S for finito ou contável, então esses detalhes técnicos realmente não acontecem quando definimos um espaço amostral específico S ,
B = {todos os subconjuntos de S, incluindo o próprio S}. Se S tem n elementos, existem 2n conjuntos em B (veja o Exercício 1.14). Por exemplo, se S = {1,2,3}, então B é a seguinte sequência de 23 = 8 conjuntos: {1}
{1,2}
{1,2,3}
{2}
{1,3}
;
{3}
{2,3}
Em geral, se S for não contável, não será tarefa fácil descrever B . Todavia, B é escolhido para conter qualquer conjunto que seja de interesse.
Exemplo 1.2.3 Sigma Álgebra – II Considerando S = (−∞, ∞) a reta real, então B é escolhido para conter todos os conjuntos da forma [a,b], (a,b], (a,b) e [a,b) para todos os números reais a e b . Além disso, a partir das propriedades de B , deduz-se que B contém todos os conjuntos que podem ser formados ao se considerarem (possivelmente infinitamente contáveis) uniões e interseções de conjuntos das variedades acima.
Agora, estamos em condições de definir uma função de probabilidade. Definição 1.2.4 Levando em conta um espaço amostral S e uma sigma álgebra associada B , uma função de probabilidade é uma função P com domínio B que satisfaz 1. P (A) ≥ 0 para todo A ∈ B . 2. P (S) = 1. P 3. Se A 1 ,A 2 , . . . ∈ B forem disjuntos dois a dois, então P (∪∞ A )= ∞ i =1 P (A i ). i =1 i
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 7, global #41)
i
i
Teoria da probabilidade
As três propriedades dadas na Definição 1.2.4 são, geralmente, chamadas de Axiomas de Probabilidade (ou Axiomas de Kolmogorov, em homenagem a A. Kolmogorov, um dos pais da teoria da probabilidade). Qualquer função P que satisfaça os Axiomas de Probabilidade é chamada de função de probabilidade. A definição axiomática não procura dizer qual função específica P escolher; ela meramente requer que P satisfaça os axiomas. Para qualquer espaço amostral, muitas diferentes funções de probabilidade podem ser definidas. O que precisa ser discutido é qual(is) delas reflete o que provavelmente será observado em um experimento em particular. Exemplo 1.2.5 Definindo probabilidades – I Considere o simples experimento de lançar uma moeda equilibrada, de modo que S = {Ca,Co}. Com o termo moeda “equilibrada” nos referimos a uma moeda que apresente a mesma probabilidade de sair cara ou coroa quando for lançada, e então a função de probabilidade razoável permite atribuir probabilidades iguais para cara ou coroa, ou seja, P ({Ca}) = P ({Co}).
(1.2.2)
Observe que (1.2.2) não obedece aos Axiomas de Probabilidade, mas, em vez disso, está fora deles. Utilizamos uma interpretação de simetria da probabilidade (ou apenas a intuição) para supor a exigência de que os resultados cara e coroa sejam igualmente prováveis. Como S = {Ca} ∪ {Co}, temos, a partir do Axioma 2, P ({Ca} ∪ {Co}) = 1. Além disso, {Ca} e {Co} são disjuntos, portanto P ({Ca} ∪ {Co}) = P ({Ca}) + P ({Co}) e P ({Ca}) + P ({Co}) = 1.
(1.2.3)
Resolvendo simultaneamente (1.2.2) e (1.2.3) temos que P ({Ca}) = P ({Co}) = 21 . Uma vez que (1.2.2) é baseado em nosso conhecimento do experimento em particular, e não nos axiomas, quaisquer valores que não sejam negativos para P ({Ca}) e P ({Co}), que satisfaçam (1.2.3), definem uma legítima função de probabilidade. Por exemplo, podemos escolher P ({Ca}) = 19 e P ({Co}) = 98 . Precisamos de métodos gerais para a definição de funções da probabilidade que, sabidamente, sempre irão satisfazer os Axiomas de Kolmogorov. Não queremos ter de verificar os axiomas para cada nova função de probabilidade, como fizemos no Exemplo 1.2.5. A seguir, apresentamos um método comum para definir uma legítima função da probabilidade. Teorema 1.2.6 Seja S = {s 1 , . . . ,s n } um conjunto finito. Seja B qualquer sigma álgebra de subconjuntos de S . Sejam p 1 , . . . ,p n números não negativos que somam 1. Para qualquer A ∈ B , definimos P (A) por X P (A) = pi . {i :s i ∈A}
(A soma sobre um conjunto vazio é definida como 0.) Então P é uma função de probabilidade em B . Isto permanece verdadeiro, se S = {s 1 ,s 2 , . . .} for um conjunto contável. Prova: P Apresentaremos a prova para S finito. Para qualquer A ∈ B , P (A) = {i :si ∈A} p i ≥ 0, porque todo p i ≥ 0. Portanto, o Axioma 1 é verdadeiro. Agora, P (S) =
X {i :s i ∈S}
pi =
n X i =1
p i = 1.
7
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 8, global #42)
i
i
8
Inferência Estatística
Assim, o Axioma 2 é verdadeiro. Seja A 1 , . . . ,A k denotando eventos disjuntos dois a dois. (B contém somente um número finito de conjuntos, de modo que precisamos considerar apenas uniões disjuntas finitas.) Então, Ã ! k k k X X X X [ P Ai = pj = pj = P (A i ). i =1
{ j :s j ∈∪ki=1 A i }
i =1 { j :s j ∈A i }
i =1
A primeira e a terceira igualdades são verdadeiras pela definição de P (A). A disjunção de A i s assegura que a segunda igualdade é verdadeira, porque os mesmos p j s aparecem exatamente um de cada lado da igualdade. Deste modo, o Axioma 3 é verdadeiro e os Axiomas de Kolmogorov são satisfeitos. ■ A realidade física do experimento pode ditar a atribuição de probabilidade, como ilustra o exemplo a seguir. Exemplo 1.2.7 Definindo probabilidades – II O jogo de dardos consiste em lançar um dardo em direção a um alvo, obtendo uma pontuação correspondente ao número atribuído à região na qual o dardo se fixou. Para um jogador novato, parece razoável assumir que a probabilidade de o dardo atingir uma determinada região é proporcional à área da região. Sendo assim, uma região maior apresenta uma maior probabilidade de ser acertada. Analisando a Figura 1.2.1, observamos que o alvo tem um raio r e que a distância entre anéis é r /5. Supondo que o alvo sempre é atingido (veja o Exercício 1.7 para conhecer uma variação deste exemplo), então temos ¡ ¢ Área da região i . P marcando i pontos = Área de alvo
Fig. 1.2.1 Alvo para o Exemplo 1.2.7
Por exemplo µ ¶2 ¡ ¢ πr 2 − π(4r /5)2 4 P marcando 1 ponto = = 1 − . 2 πr 5
É fácil derivar a fórmula geral, e descobrimos que ¡ ¢ (6 − i )2 − (5 − i )2 P marcando i pontos = , 52
i = 1, . . . ,5,
independente de π e r . A soma das áreas das regiões disjuntas é igual à área do alvo. Portanto, as probabilidades que foram atribuídas aos cinco resultados se somam a 1, e, segundo o Teorema 1.2.6, esta é uma função de probabilidade (veja o Exercício 1.8).
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 9, global #43)
i
i
Teoria da probabilidade
Antes de deixarmos o desenvolvimento axiomático da probabilidade, existe outro ponto a ser considerado. O Axioma 3 da Definição 1.2.4, que é comumente conhecido como Axioma da Aditividade Contável, não é universalmente aceito entre os estatísticos. Na verdade, pode-se argumentar que os axiomas deveriam ser declarações simples, autoevidentes. A comparação do Axioma 3 aos outros axiomas, que são simples e autoevidentes, pode nos levar a duvidar se é razoável assumir a verdade do Axioma 3. O Axioma da Aditividade Contável é rejeitado por uma escola de estatísticos liderada por deFinetti (1972), que prefere substituir este axioma pelo Axioma da Aditividade Finita.
1.2.2
Axioma da Aditividade Finita
Se A ∈ B e B ∈ B são disjuntos, então P (A ∪ B ) = P (A) + P (B ).
Embora este axioma possa não ser totalmente autoevidente, certamente é mais simples que o Axioma da Aditividade Contável (e é implicado por ele – veja o Exercício 1.12). Assumir somente a aditividade finita, embora talvez seja mais plausível, pode levar a complicações inesperadas em teoria estatística – complicações que, neste nível, não melhoram, necessariamente, o entendimento do assunto. Portanto, prosseguimos conforme a suposição apresentada pelo Axioma de Aditividade Contável.
1.2.3
O Cálculo de Probabilidades
A partir dos Axiomas de Probabilidade, podemos derivar muitas propriedades da função de probabilidade, que são bastante úteis no cálculo de probabilidades mais complicadas. Algumas dessas manipulações serão discutidas detalhadamente nesta seção; outras serão apresentadas como exercícios. Começamos com algumas propriedades (bastante autoevidentes) da função de probabilidade quando aplicada a um único evento. Teorema 1.2.8 Se P é uma função de probabilidade e A é qualquer conjunto em B , então a. P (;) = 0, onde ; é o conjunto vazio; b. P (A) ≤ 1; c. P (A c ) = 1 − P (A). Prova: É mais fácil provar (c) em primeiro lugar. Os conjuntos A e A c formam uma partição do espaço amostral, isto é, S = A ∪ A c . Portanto, P (A ∪ A c ) = P (S) = 1
(1.2.4)
pelo segundo axioma. Além disso, A e A c são disjuntos, portanto, pelo terceiro axioma, P (A ∪ A c ) = P (A) + P (A c ).
(1.2.5)
Combinando (1.2.4) e (1.2.5), resulta em (c). Como P (A c ) ≥ 0, (b) é imediatamente implicado por (c). Para comprovar (a), utilizamos um argumento similar em S = S ∪ ;. (Lembre-se de que S e ; estão sempre em B .) Uma vez que S e ; são disjuntos, temos 1 = P (S) = P (S ∪ ;) = P (S) + P (;),
e, portanto, P (;) = 0.
■
9
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 10, global #44)
i
i
10
Inferência Estatística
O teorema 1.2.8 contém propriedades que são tão básicas que também se parecem com axiomas, embora os tenhamos comprovado formalmente utilizando somente os três Axiomas de Kolmogorov originais. O teorema seguinte, que é similar em conceito ao Teorema 1.2.8, contém declarações que não são tão autoevidentes. Teorema 1.2.9 Se P é uma função de probabilidade e A e B são quaisquer conjuntos em B , então a. P (B ∩ A c ) = P (B ) − P (A ∩ B ); b. P (A ∪ B ) = P (A) + P (B ) − P (A ∩ B ); c. Se A ⊂ B , então P (A) ≤ P (B ). Prova: Para estabelecer (a), observe que para quaisquer conjuntos A e B temos B = {B ∩ A} ∪ {B ∩ A c },
e, portanto, P (B ) = P ({B ∩ A} ∪ {B ∩ A c }) = P (B ∩ A) + P (B ∩ A c ),
(1.2.6)
onde a última igualdade em (1.2.6) segue a partir do fato de que B ∩ A e B ∩ A c são disjuntos. Rearranjar (1.2.6) resulta em (a). Para estabelecer (b), utilizamos a identidade A ∪ B = A ∪ {B ∩ A c }.
(1.2.7)
Um diagrama de Venn mostrará por que (1.2.7) permanece, embora uma prova formal não seja difícil de se obter (veja o Exercício 1.2). Utilizando (1.2.7) e o fato de que A e B ∩ A c são disjuntos (como A e A c são), temos P (A ∪ B ) = P (A) + P (B ∩ A c ) = P (A) + P (B ) − P (A ∩ B )
(1.2.8)
a partir de (a). Se A ⊂ B , então A ∩ B = A . Portanto, utilizando (a), temos 0 ≤ P (B ∩ A c ) = P (B ) − P (A),
estabelecendo (c).
■
A fórmula (b) do Teorema 1.2.9 resulta em uma desigualdade útil para a probabilidade de uma interseção. Como P (A ∪ B ) ≤ 1, temos, a partir de (1.2.8), depois de fazer alguns rearranjos, P (A ∩ B ) ≥ P (A) + P (B ) − 1. (1.2.9) Esta desigualdade é um caso especial daquilo que é conhecido como Desigualdade de Bonferroni (Miller, 1981, é uma boa referência). A Desigualdade de Bonferroni permite limitar a probabilidade de um evento simultâneo (a interseção) em termos das probabilidades dos eventos individuais. Exemplo 1.2.10 Desigualdade de Bonferroni A Desigualdade de Bonferroni é particularmente útil quando é difícil (ou mesmo impossível) calcular a probabilidade de interseção, mas é importante ter alguma ideia do tamanho desta probabilidade. Suponha que A e B sejam dois eventos e que cada um tenha a probabilidade de 0,95. Então, a probabilidade que ocorrerá é limitada inferiormente por P (A ∩ B ) ≥ P (A) + P (B ) − 1 = 0,95 + 0,95 − 1 = 0,90.
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 11, global #45)
i
i
Teoria da probabilidade
Observe que, a menos que as probabilidades dos eventos individuais sejam suficientemente grandes, o limite de Bonferroni é um número negativo inútil (mas correto!).
Encerramos esta seção com um teorema que proporciona alguns resultados úteis para lidar com uma sequência de conjuntos. Teorema 1.2.11 Se P é uma função de probabilidade, então P a. P (A) = ∞ (A ∩C i ) para qualquer partição C 1 ,C 2 , . . . ; i =1 PP ∞ b. P (∪∞ A ) ≤ i i =1 P (A i ) para quaisquer conjuntos A 1 ,A 2 , . . .. (Desigualdade de Boole) i =1 Prova: Como C 1 ,C 2 , . . . forma uma partição, percebemos que C i ∩ C j = ; para todo i 6= j , e S = ∪∞ C . Assim, i =1 i à ! ∞ ∞ [ [ A = A ∩S = A ∩ C i = (A ∩C i ), i =1
i =1
onde a última igualdade segue a partir da Lei Distributiva (Teorema 1.1.4). Portanto, temos à ! ∞ [ P (A) = P (A ∩C i ) . i =1
Agora, uma vez que C i são disjuntos, os conjuntos A ∩ C i também o são, e a partir das propriedades de uma função de probabilidade, temos à ! ∞ ∞ X [ P (A ∩C i ) = P (A ∩C i ), i =1
i =1
estabelecendo (a). Para estabelecer (b), primeiramente criamos uma sequência disjunta A ∗1 ,A ∗2 , . . ., com a propriedade ∪∞ A ∗ = ∪∞ A . Definimos A ∗i por i =1 i i =1 i à A ∗1
A ∗i
= A1,
= Ai \
!
i[ −1
Aj ,
i = 2,3, . . . ,
j =1
onde a notação A\B denota a parte de A que não intersecta com B . Em símbolos mais familiares, A\B = A ∩ B c . Será fácil perceber que ∪∞ A ∗ = ∪∞ A e, portanto, temos i =1 i i =1 i à P
∞ [
!
Ã
Ai = P
i =1
!
∞ [
A ∗i
i =1
=
∞ X i =1
¡ ¢ P A ∗i ,
onde a última igualdade segue, uma vez que A ∗i são disjuntos. Para verificar isto, escrevemos ( A ∗i ∩ A ∗k
Ã
= Ai \
i[ −1
!) ( Aj
∩ Ak \
j =1
( = Ai ∩
Ã
Ã
k−1 [
i[ −1
= Ai ∩
i\ −1 j =1
(definição de A ∗i )
Aj
j =1
!c ) ( Aj
∩ Ak ∩
k−1 [
Aj
(definição de “\”)
j =1
) ( A cj
!c )
Ã
j =1
(
!)
∩ Ak ∩
k−1 \ j =1
) A cj
(Leis de DeMorgan)
11
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 12, global #46)
i
i
12
Inferência Estatística
Agora, se i > k , a primeira interseção, acima, estará contida no conjunto A ck , que terá uma interseção vazia com A k . Se k > i , o argumento é similar. Além disso, pela construção A ∗i ⊂ A i , portanto, P (A ∗i ) ≤ P (A i ), temos ∞ X i =1
∞ ¡ ¢ X P A ∗i ≤ P (A i ) , i =1
estabelecendo (b).
■
Existe uma similaridade entre as Desigualdades de Boole e a de Bonferroni. Na verdade, elas são, essencialmente, a mesma coisa. Poderíamos ter utilizado a Desigualdade de Boole para derivar (1.2.9). Se a aplicarmos a A c , temos à ! n n X [ ¡ ¢ c P Ai ≤ P A ci , i =1
e utilizando os fatos de que
∪A ci
i =1
c
= (∩A i ) e P (A ci ) = 1 − P (A i ), obtemos à ! n n X \ 1−P Ai ≤ n − P (A i ). i =1
i =1
Isto se torna, rearranjando termos, Ã ! n n X \ P (A i ) − (n − 1), P Ai ≥ i =1
(1.2.10)
i =1
que é uma versão mais geral da Desigualdade de Bonferroni (1.2.9).
1.2.4
Contagem
O processo elementar de contagem pode se tornar bastante sofisticado quando colocado nas mãos de um estatístico. Mais frequentemente, métodos de contagem são utilizados a fim de criar atribuições de probabilidade em espaços amostrais finitos, embora possam sê-los também para responder a outras questões. Exemplo 1.2.12 Loteria – I Por muitos anos, a loteria estadual de Nova York operou de acordo com o seguinte esquema: a partir de 1, 2, . . ., 44, uma pessoa pode escolher quaisquer seis números para seu bilhete. O ganhador é então decidido selecionando-se aleatoriamente seis números dentre os 44. Para ter condições de calcular a probabilidade de ganhar, primeiramente devemos contar quantos diferentes grupos de seis números podem ser escolhidos a partir do 44.
Exemplo 1.2.13 Torneio Em um torneio com eliminação simples, como o campeonato de tênis U. S. Open, os jogadores avançam somente se vencerem (diferente de torneios com eliminação dupla ou dos abertos). Se houver 16 participantes, é possível definir o número de caminhos que um determinado jogador pode seguir para chegar à vitória, em que um caminho escolhido significa uma sequência de oponentes.
A contagem de problemas, em geral, parece complicada, e frequentemente precisamos manter nossa contagem sujeita a muitas restrições. O meio de resolver esses problemas é dividi-los em uma série de tarefas simples, que são fáceis de serem contadas, e empregar
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 13, global #47)
i
i
Teoria da probabilidade
regras conhecidas de combinação de tarefas. O teorema a seguir é a primeira etapa neste processo e, algumas vezes, é conhecido como Teorema Fundamental da Contagem. Teorema 1.2.14 Se um trabalho consiste em k tarefas separadas, a i -ésima delas pode ser realizada de n i maneiras, i = 1, . . . ,k , então o trabalho todo pode ser realizado de n 1 × n 2 × · · · × n k modos. Prova: Basta provar o teorema para k = 2 (veja o Exercício 1.15). A prova é apenas uma questão de contagem cuidadosa. A primeira tarefa pode ser efetuada de n 1 maneiras e, para cada uma dessas maneiras, temos n 2 opções para a segunda tarefa. Deste modo, podemos realizar o trabalho de (1 × n 2 ) + (1 × n 2 ) + · · · + (1 × n 2 ) = n 1 × n 2 | {z } n 1 termos maneiras, estabelecendo o teorema para k = 2.
■
Exemplo 1.2.15 Loteria – II Embora o Teorema Fundamental da Contagem seja um razoável ponto de partida, em aplicações existem geralmente mais aspectos de um problema a serem considerados. Por exemplo, na loteria estadual de Nova York, o primeiro número pode ser escolhido de 44 maneiras, e o segundo número, de 43, perfazendo um total de 44 × 43 = 1.892 modos de escolher os primeiros dois números. Contudo, se uma pessoa puder escolher o mesmo número duas vezes, então, os primeiros dois números podem ser escolhidos de 44 × 44 = 1.936 maneiras. A distinção feita no Exemplo 1.2.15 é entre as contagens com reposição e sem reposição. Existe um segundo elemento crucial em qualquer problema de contagem, referente a se a ordem das tarefas é importante ou não. Para ilustrar com o exemplo da loteria, suponha que os números ganhadores são selecionados na ordem 12, 37, 35, 9, 13, 22. Uma pessoa que selecionou 9, 12, 13, 22, 35, 37 está qualificada como ganhadora? Em outras palavras, a ordem na qual a tarefa é realizada realmente faz diferença? Levando em conta todas essas considerações, podemos criar uma tabela 2 × 2 de possibilidades: Possíveis métodos de contagem Sem reposição
Com reposição
Ordenado Não ordenado
Antes de começarmos a contagem, a definição seguinte nos apresenta uma notação extremamente útil. Definição 1.2.16 Para um número inteiro positivo, n , n! (leia-se n fatorial) é o produto de todos os números inteiros positivos menores que ou iguais a n . Isto é, n! = n × (n − 1) × (n − 2) × · · · × 3 × 2 × 1.
Além disso, definimos 0! = 1.
13
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 14, global #48)
i
i
14
Inferência Estatística
Vamos agora considerar a contagem de todos os possíveis bilhetes de loteria em cada um desses quatro casos. 1. Ordenados, sem reposição – A partir do Teorema Fundamental da Contagem, o primeiro número pode ser selecionado de 44 maneiras, o segundo, de 43 etc. Assim, existem 44! 44 × 43 × 42 × 41 × 40 × 39 = = 5.082.517.440 38! possíveis bilhetes. 2. Ordenados, com reposição – Uma vez que cada número pode agora ser selecionado de 44 maneiras (porque o número escolhido é reposto), existem 44 × 44 × 44 × 44 × 44 × 44 = 446 = 7.256.313.856
possíveis bilhetes. 3. Não ordenados, sem reposição – Conhecemos o número de possíveis bilhetes, com a ordenação sendo levada em conta, de modo que devemos dividir as ordenações redundantes. Mais uma vez, a partir do Teorema Fundamental, seis números podem ser arranjados de 6×5×4×3×2×1 maneiras, de modo que o número total de bilhetes não ordenados é 44 × 43 × 42 × 41 × 40 × 39 44! = = 7.059.052. 6×5×4×3×2×1 6! 38!
Esta forma de contagem representa um papel central em grande parte da estatística – tanto, que, na verdade, ela recebeu sua própria notação. Definição 1.2.17 ¡ ¢ Para números inteiros não negativos n e r , onde n ≥ r , definimos o símbolo nr – leia-se n combinados r a r –, como ³n ´ n! = . r r ! (n − r )! Em nosso³exemplo da loteria, o número de possíveis bilhetes (não ordenados, sem ´ reposição) é 44 . Esses números também são chamados de coeficientes binomiais, por 6 razões que serão esclarecidas no Capítulo 3. 4. Não ordenados, com reposição – Este é o caso de contagem mais difícil. Você pode, logo de início, dar o palpite de que a resposta é 446 /(6 × 5 × 4 × 3 × 2 × 1), mas não está correto (é muito pequeno). Para a contagem, neste caso, é mais fácil a ideia de colocar 6 marcadores nos 44 números. Na verdade, podemos pensar nos 44 números, definindo espaços nos quais podemos colocar os seis marcadores, M, como mostra, por exemplo, esta figura. M 1
2
MM 3
M 4
5
··· ···
M 41
M 42
43
44
O número de possíveis bilhetes é, então, igual ao número de maneiras pelas quais podemos colocar os 6 marcadores nos 44 espaços. Mas isto pode ser reduzido ainda mais, ao notarmos que basta manter o controle dos arranjos dos marcadores e das divisões dos espaços. Observe também que as duas divisões mais externas não fazem parte do arranjo. Deste modo, é preciso contar todos os arranjos de 43 divisões (44 espaços geram 45 divisões, mas não consideramos as duas divisões nas extremidades) e 6 marcadores. Portanto, temos 43 + 6= 49 objetos, que podem ser arranjados de 49!
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 15, global #49)
i
i
Teoria da probabilidade
maneiras. No entanto, para eliminar as ordenações redundantes é preciso dividir por 6! e 43!, de modo que o número total de arranjos é 49! = 13.983.816. 6! 43!
Embora todas as derivações precedentes tenham sido feitas em termos de um exemplo, é fácil observar que elas se mantêm de forma geral. Para concluir, podemos resumir essas situações na Tabela 1.2.1. Tab. 1.2.1 Número de possíveis arranjos de tamanho r a partir de n objetos
Ordenado Não ordenado
1.2.5
Sem reposição
Com reposição
n! (n − r )! ³n ´
nr
r
µ
n +r −1 r
¶
Resultados da enumeração
As técnicas de contagem da seção anterior são úteis quando o espaço amostral S é um conjunto finito e todos os resultados S são igualmente prováveis. Então, as probabilidades de eventos podem ser calculadas simplesmente contando o número de resultados no evento. Para observar isto, suponhamos que S = {s 1 , . . . ,s N } é um espaço amostral finito. Dizer que todos os resultados são igualmente prováveis significa que P ({s i }) = 1/N para cada resultado s i . Então, utilizando o Axioma 3 a partir da Definição 1.2.4, temos, para qualquer evento A , X X 1 # de elementos em A P (A) = P ({s i }) = = . # de elementos em S s i ∈A s i ∈A N Para grandes espaços amostrais, as técnicas de contagem podem ser utilizadas para calcular o numerador e o denominador dessa expressão. Exemplo 1.2.18 Pôquer Considere escolher uma mão de pôquer de cinco cartas, a partir de um baralho padrão contendo 52 cartas. Obviamente, na amostragem não ocorre a reposição das cartas. Mas para especificar os possíveis resultados (possíveis mãos), devemos decidir se pensamos na mão de cartas sendo tratada sequencialmente (ordenada) ou toda de uma vez (não ordenada). Se quisermos calcular probabilidades para eventos que dependem da ordem, como a probabilidade de um ás nas duas primeiras cartas, então, é preciso utilizar os resultados ordenados. Mas se nossos eventos não dependerem da ordem, podemos utilizar os resultados não ordenados. Para este exemplo empregamos os resultados não ordenados, de modo que o espaço amostral consiste em todas as³mãos ´ de cinco cartas que podem ser escolhidas a partir do baralho de 52 cartas. Existem 52 5 = 2.598.960 possíveis mãos. Se o baralho for bem embaralhado e as cartas distribuídas aleatoriamente, é razoável atribuir a probabilidade 1/2.598.960 a cada possível mão. Agora calculamos algumas probabilidades pela contagem de resultados em eventos. Qual é a probabilidade de saírem quatro ases? Quantas diferentes mãos existem com quatro ases? Se especificarmos que quatro das cartas são ases, então existem 48 diferentes maneiras de especificar a quinta carta. Portanto,
15
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 16, global #50)
i
i
16
Inferência Estatística
P (quatro ases) =
48 , 2.598.960
menos do que 1 chance em 50 mil. Somente uma contagem um pouco mais complicada, utilizando o Teorema 1.2.14, nos permite calcular a probabilidade de ter quatro cartas de um mesmo naipe. Existem 13 modos de especificar de qual naipe serão sorteadas as quatro cartas. Depois de especificar essas quatro cartas, existem 48 maneiras de especificar a quinta carta. Deste modo, o número total de mãos com quatro cartas de um mesmo naipe é (13)(48) e (13)(48) 624 P (quatro do mesmo naipe) = = . 2.598.960 2.598.960 Para calcular a probabilidade de exatamente um par (nem dois pares, nem três de um mesmo naipe etc.), combinamos algumas das técnicas de contagem. O número de mãos com exatamente um par é µ ¶µ ¶ 4 12 3 13 4 = 1.098.240. (1.2.11) 2 3 A expressão (1.2.11) origina-se do Teorema 1.2.14 porque 13 = # de meios para especificar a denominação para o par, µ ¶ 4 = # de meios para especificar as duas cartas desta denominação, 2 µ ¶ 12 = # de meios para especificar as outras três denominações, 3 43 = # de meios para especificar as outras três cartas desta denominação.
Portanto, P (exatamente um par) =
1.098.240 . 2.598.960
Ao fazer a amostragem sem reposição, como no Exemplo 1.2.18, se quisermos calcular a probabilidade de um evento que não depende da ordem, podemos utilizar o espaço amostral ordenado ou não ordenado. Cada resultado no espaço amostral não ordenado corresponde a r ! resultados no espaço amostral ordenado. Portanto, ao fazer a contagem dos resultados no espaço amostral ordenado, utilizamos um fator de r ! no numerador e no denominador, que será cancelado para dar a mesma probabilidade, como se a contagem fosse feita no espaço amostral não ordenado. A situação é diferente se for feita a amostragem com reposição. Cada resultado no espaço amostral não ordenado corresponde a alguns resultados no espaço amostral ordenado, mas o número de resultados difere.
Exemplo 1.2.19 Amostragem com reposição Considere a amostragem de r = 2 itens a partir dos n = 3 itens, com reposição. Os resultados nos espaços amostrais ordenado e não ordenado são esses. Não ordenado Ordenado Probabilidade
{1,1} (1,1) 1/9
{2,2} (2,2) 1/9
{3,3} (3,3) 1/9
{1,2} (1,2),(2,1) 2/9
{1,3} (1,3),(3,1) 2/9
{2,3} (2,3),(3,2) 2/9
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 17, global #51)
i
i
Teoria da probabilidade
As probabilidades surgem por se considerarem os nove resultados no espaço amostral ordenado como sendo igualmente prováveis. Isto corresponde à interpretação comum da “amostragem com reposição”; a saber, um dos três é escolhido, cada um com uma probabilidade de 1/3; o item é anotado e reposto; os itens são misturados e, novamente, um dos três itens é escolhido, cada um com uma probabilidade de 1/3. É possível observar que os seis resultados no espaço amostral não ordenado não são igualmente prováveis, de acordo com este tipo de amostragem. A fórmula para o número de resultados no espaço amostral não ordenado é útil para a enumeração dos resultados, mas resultados ordenados devem ser contados para calcular corretamente as probabilidades.
Alguns autores argumentam que é apropriado atribuir probabilidades iguais aos resultados não ordenados quando se distribuem “aleatoriamente r bolas indistinguíveis em n urnas distinguíveis”. Isto é, uma urna é escolhida aleatoriamente e uma bola é nela colocada, e este processo é repetido r vezes. A ordem na qual as bolas são colocadas não é registrada, portanto, no final, um resultado como {1,3} significa que uma bola está na urna 1 e uma bola está na urna 3. Mas aqui verificamos um problema com esta interpretação. Suponha que duas pessoas observem este processo, e o Observador 1 registre a ordem na qual as bolas são colocadas, mas o Observador 2 não faça nenhum registro. O Observador 1 atribuirá a probabilidade 2/9 ao evento {1,3}. O Observador 2, que está observando exatamente o mesmo processo, também deverá atribuir a probabilidade 2/9 a este evento. Mas se os seis resultados não ordenados são escritos em idênticos pedaços de papel e um deles é escolhido aleatoriamente para determinar a colocação das bolas, então os resultados não ordenados têm, cada um deles, uma probabilidade de 1/6. Portanto, o Observador 2 atribuirá a probabilidade 1/6 ao evento {1,3}. A confusão surge porque a frase “com reposição” será tipicamente interpretada com o tipo sequencial de amostragem que descrevemos acima, levando à atribuição da probabilidade 2/9 ao evento {1,3}. Este é o modo correto de se proceder, uma vez que as probabilidades devem ser determinadas pelo mecanismo de amostragem, não importando se as bolas são distinguíveis ou indistinguíveis.
Exemplo 1.2.20 Calculando uma média Como ilustração da abordagem distinguível/indistinguível, suponha que devemos calcular todas as possíveis médias de quatro números selecionados a partir de 2,4,9,12
onde obtemos os números com a reposição. Por exemplo, é possível obter {2,4,4,9} com média 4,75, e {4,4,9,9} com média 6,5. Se estivermos interessados somente na média dos números da amostragem, a ordem não é importante e, deste modo, o número total de amostras distintas é obtido pela contagem, de acordo com a amostragem não ordenado com substituição. ¡ ¢ O número total de amostras distintas é n+n−1 . Mas agora, para calcular a distribuição n de probabilidade das médias da amostra, precisamos contar os diferentes modos pelos quais uma determinada média pode ocorrer. O valor 4,75 pode ocorrer somente se a amostra contiver um 2, dois 4s e um 9. O número de amostras possíveis que apresenta esta configuração é dado na tabela a seguir:
17
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 18, global #52)
i
i
18
Inferência Estatística
Não ordenado {2,4,4,9}
Ordenado (2,4,4,9),(2,4,9,4),(2,9,4,4),(4,2,4,9), (4,2,9,4),(4,4,2,9),(4,4,9,2),(4,9,2,4), (4,9,4,2),(9,2,4,4),(9,4,2,4),(9,4,4,2)
O número total de amostras ordenadas é n n = 44 = 256, de modo que a probabilidade de obter uma amostra ordenada {2,4,4,9} é 12/256. Compare isto com a probabilidade que teria sido obtida se tivéssemos considerado as amostras não ordenadas como igualmente ¡ ¢ ¡ ¢ prováveis – teríamos atribuído a probabilidade 1/ n+n−1 = 1/ 74 = 1/35 a {2,4,4,9} e a todas n as outras amostras não ordenadas. Para contar o número de amostras ordenadas que resultariam em {2,4,4,9}, assim argumentamos: precisamos enumerar as possíveis ordens dos quatro números {2,4,4,9}, de modo que estamos, essencialmente, utilizando o método de contagem 1 da Seção 1.2.4. Podemos ordenar a amostra de 4×3×2×1 = 24 maneiras. Mas existe algo de dupla contagem aqui, uma vez que não podemos contar distintos arranjos dos dois 4s. Por exemplo, os 24 modos contariam {9,4,2,4} duas vezes (o que estaria correto se os 4s fossem diferentes). Para corrigir isto, dividimos por 2! (existem 2! modos de arranjar os dois 4s) e obtemos 24/2 = 12 amostras ordenadas. Em geral, se houver k posições e tivermos m diferentes números k! repetidos k 1 , k 2 , . . . ,k m vezes, então o número de amostras ordenadas é . Este k 1 !k 2 ! · · · k m ! tipo de contagem está relacionado à distribuição multinomial, que veremos na Seção 4.6.
Fig. 1.2.2 Histograma de médias de amostras com reposição dos quatro números {2,4,9,12}
A Figura 1.2.2 é um histograma da distribuição de probabilidade das médias de amostragem, refletindo a contagem multinomial das amostras. Existe também outro aperfeiçoamento que é refletido nesta Figura. É possível que duas diferentes amostras não ordenadas resultem na mesma média. Por exemplo, as amostras não ordenadas {4,4,12,12} e {2,9,9,12} resultam em um valor médio de 8. A primeira amostra tem a probabilidade 3/128 e a segunda tem 3/64, resultando o valor 8 em uma probabilidade de 9/128 = 0,07. Veja o Exemplo A.0.1 no Apêndice A para obter detalhes sobre a construção deste histograma. O cálculo que fizemos neste exemplo é uma versão elementar de uma técnica estatística muito importante, conhecida como bootstrap (Efron e Tibshirani 1993). Voltaremos a falar de bootstrap na Seção 10.1.4.
1.3
PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA
Até este momento, todas as probabilidades com as quais tivemos de lidar são incondicionais. Um espaço amostral foi definido e todas as probabilidades foram calculadas com relação ao
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 19, global #53)
i
i
Teoria da probabilidade
espaço amostral. Entretanto, em muitos casos, estamos em condições de atualizar o espaço amostral com base em novas informações. Nesses casos, podemos atualizar os cálculos de probabilidade ou calcular probabilidades condicionais.
Exemplo 1.3.1 Quatro ases São distribuídas quatro cartas de cima de um baralho bem embaralhado. Qual é a probabilidade de que estas cartas sejam quatro ases? Podemos calcular esta probabilidade pelos métodos da seção anterior. O número de grupos distintos de quatro cartas é µ ¶ 52 = 270.725. 4 Somente um desses grupos consiste nos quatro ases e todos os grupos são igualmente prováveis, de modo que a probabilidade de terem sido retirados todos os quatro ases é de 1/270.725. Também podemos calcular esta probabilidade por um argumento de “atualização”, como segue. A probabilidade de que a primeira carta seja um ás é 4/52. Considerando que a primeira carta é um ás, a probabilidade de que a segunda carta também seja é de 3/51 (existem 3 ases e restam 51 cartas). Continuando com este argumento, obtemos a probabilidade desejada como 4 3 2 1 1 × × × = . 52 51 50 49 270.725
Em nosso segundo método de solução do problema, atualizamos o espaço amostral depois que cada carta é retirada; calculamos as probabilidades condicionais. Definição 1.3.2 Se A e B são eventos em S e P (B ) > 0, então a probabilidade condicional de A dado B , escrita como P (A|B ), é P (A ∩ B ) P (A|B ) = . (1.3.1) P (B ) Observe que o que acontece no cálculo da probabilidade condicional é que B se torna o espaço amostral: P (B |B ) = 1. A intuição é de que nosso espaço amostral original, S , foi atualizado para B . Todas as outras ocorrências são então ajustadas tendo como base sua relação com B . Em particular, observe o que acontece com as probabilidades condicionais dos conjuntos disjuntos. Suponha que A e B sejam disjuntos, de modo que P (A ∩ B ) = 0. Neste caso, temos que P (A|B ) = P (B |A) = 0.
Exemplo 1.3.3 Continuação do Exemplo 1.3.1 Embora seja muito pequena a probabilidade de retirar todos os quatro ases, observamos como as probabilidades condicionais se modificam, considerando que alguns ases já foram retirados. Novamente, serão distribuídas quatro cartas de um baralho bem embaralhado, e agora calculamos P (4 ases em 4 cartas | i ases em i cartas),
i = 1,2,3.
O evento {4 ases em 4 cartas} é um subconjunto do evento {i ases em i cartas}. Portanto, a partir da definição de probabilidade condicional, (1.3.1), sabemos que
19
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 20, global #54)
i
i
20
Inferência Estatística
P ({4 ases em 4 cartas} ∩ {i ases em i cartas}) P (i ases em i cartas) P (4 ases em 4 cartas) = . P (i ases em i cartas)
P (4 ases em 4 cartas | i ases em i cartas) =
O numerador já foi calculado, e o denominador pode ser calculado com um argumento ¡ ¢ similar. O número de grupos distintos de i cartas é 52 i ,e ³ ´ P (i ases em i cartas) = ³
4 i
52 i
´.
Portanto, a probabilidade condicional é dada por ³ P (4 ases em 4 cartas | i ases em i cartas) = ³
52 i
52 4
´
´³ ´ = 4 i
(4 − i )!48! 1 ´. =³ 52−i (52 − i )! 4−i
Para i = 1, 2, e 3, as probabilidades condicionais são 0,00005, 0,00082 e 0,02041, respectivamente. Para qualquer B para o qual P (B ) > 0 é possível verificar diretamente que a função de probabilidade P (·|B ) satisfaz os Axiomas de Kolmogorov (veja o Exercício 1.35). Você pode suspeitar que exigir P (B ) > 0 é redundante. Quem pretenderia definir como condição um evento de probabilidade 0? É interessante observar que, algumas vezes, este é um meio particularmente útil de se pensar nas coisas. Contudo, deixaremos essas considerações para o Capítulo 4. As probabilidades condicionais podem ser particularmente complicadas e, às vezes, exigem maior cuidado. Leia com atenção o conhecido conto a seguir. Exemplo 1.3.4 Os três prisioneiros Três prisioneiros, A, B e C, estão no corredor da morte. O governador decide perdoar um dos três e escolhe aleatoriamente o prisioneiro que será perdoado. Ele informa o diretor da penitenciária sobre sua escolha, mas pede que o nome do prisioneiro escolhido permaneça em segredo por alguns dias. No dia seguinte, A tenta falar com o diretor para que lhe revele quem foi perdoado, mas o diretor se recusa. A então pergunta se B ou C será executado. O diretor pensa por algum tempo e, então, diz para A que B será executado. Raciocínio do diretor: cada prisioneiro tem 13 de chance de ser perdoado. Obviamente, B ou C deverá ser executado; deste modo, não dei para A nenhuma informação quanto a se A será perdoado. Raciocínio de A: considerando que B será executado, então, A ou C será perdoado. Então, minhas chances de ser perdoado aumentaram para 12 . Deve ficar claro que o raciocínio do diretor está correto, mas vejamos por quê. Digamos que A, B , e C denotam os eventos em que A, B ou C é perdoado, respectivamente. Sabemos que P (A) = P (B ) = P (C ) = 13 . Digamos que W denota o evento em que o diretor diz que B será executado. Utilizando (1.3.1), A pode atualizar sua probabilidade de ser perdoado para P (A|W ) =
P (A ∩ W ) . P (W )
O que está acontecendo pode ser resumido na tabela a seguir:
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 21, global #55)
i
i
Teoria da probabilidade
Prisioneiro perdoado A A
O diretor diz que é A ¾ B morre cada um com igual probabilidade C morre
B C
C morre B morre
Utilizando esta tabela, podemos calcular P (W ) = P (o diretor diz que B morre) = P (o diretor diz que B morre e que A é perdoado) + P (o diretor diz que B morre e que C é perdoado) + P (o diretor diz que B morre e que B é perdoado) =
1 1 1 + +0 = . 6 3 2
Portanto, utilizando o raciocínio do diretor, temos P (A ∩ W ) P (W ) P (o diretor diz que B morre e que A é perdoado) 1/6 1 = = = . P (o diretor diz que B morre) 1/2 3
P (A|W ) =
(1.3.2)
No entanto, A interpreta erroneamente o evento W como sendo igual ao evento B c e calcula P (A ∩ B c ) 1/3 1 P (A|B c ) = = = . P (B c ) 2/3 2 Vemos que as probabilidades condicionais podem ser bastante complicadas e exigem interpretação cuidadosa. Para algumas outras variações deste problema, veja o Exercício 1.37.
Reexpressar (1.3.1) resulta em uma forma útil de calcular probabilidade de interseção, P (A ∩ B ) = P (A|B )P (B ),
(1.3.3)
que é essencialmente a fórmula utilizada no Exemplo 1.3.1. Podemos tirar proveito da simetria de (1.3.3) e também escrever P (A ∩ B ) = P (B |A)P (A).
(1.3.4)
Quando nos deparamos com cálculos aparentemente difíceis, podemos dividir nossos cálculos de acordo com (1.3.3) ou (1.3.4), o que for mais fácil. Além disso, podemos igualar os dois lados dessas equações para obter (depois de rearranjar) P (A|B ) = P (B |A)
P (A) , P (B )
(1.3.5)
que nos dá uma fórmula para “melhorar” as probabilidades condicionais. A equação (1.3.5) geralmente é chamada de Regra de Bayes, em homenagem ao seu descobridor, Sir Thomas Bayes (contudo, veja Stigler, 1983). A Regra de Bayes tem uma forma mais geral do que (1.3.5), uma forma que se aplica a partições de um espaço amostral. Deste modo, assumimos o seguinte como a definição da Regra de Bayes.
21
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 22, global #56)
i
i
22
Inferência Estatística
Teorema 1.3.5 Regra de Bayes Suponhamos que A 1 ,A 2 , . . . seja uma partição do espaço amostral, e que B seja um conjunto qualquer. Então, para cada i = 1,2, . . ., P (B |A i )P (A i ) . P (A i |B ) = P∞ j =1 P (B |A j )P (A j )
Exemplo 1.3.6 Codificação Quando mensagens codificadas são enviadas, algumas vezes ocorrem erros de transmissão. Em particular, o código Morse utiliza “pontos” e “traços”, que, como se sabe, ocorrem na proporção de 3:4. Isto significa que para qualquer símbolo dado, P (ponto enviado) =
3 7
e
4 P (traço enviado) = . 7
Suponha que exista uma interferência na linha de transmissão, e com uma probabilidade um ponto é, erroneamente, recebido como um traço e vice-versa. Se recebermos um ponto, podemos ter certeza de que realmente foi enviado um ponto? Utilizando a Regra de Bayes, podemos escrever 1 8,
P (ponto enviado | ponto recebido) = P (ponto recebido | ponto enviado)
P (ponto enviado) . P (ponto recebido)
Agora, a partir da informação dada, sabemos que P (ponto enviado) =
3 7
7 e P (ponto recebido|ponto enviado) = . 8
Além disso, também podemos escrever P (ponto recebido) = P (ponto recebido ∩ ponto enviado) + P (ponto recebido ∩ traço enviado) = P (ponto recebido | ponto enviado)P (ponto enviado) + P (ponto recebido | traço enviado)P (traço enviado) =
25 7 3 1 4 × + × = . 8 7 8 7 56
Combinando esses resultados, temos que a probabilidade de receber corretamente um ponto é (7/8) × (3/7) 21 P (ponto enviado | ponto recebido) = = . 25/56 25
Em alguns casos, pode acontecer que a ocorrência de um evento específico, B , não tem efeito na probabilidade de outro evento, A . Simbolicamente, estamos dizendo que P (A|B ) = P (A).
(1.3.6)
Se isto se mantiver, então, pela Regra de Bayes (1.3.5) e utilizando (1.3.6), temos P (B |A) = P (A|B )
P (B ) P (B ) = P (A) = P (B ), P (A) P (A)
(1.3.7)
de modo que a ocorrência de A não tem efeito em B . Além disso, P (B |A)P (A) = P (A ∩ B ), então, segue que P (A ∩ B ) = P (A)P (B ), que assumimos como a definição de independência estatística.
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 23, global #57)
i
i
Teoria da probabilidade
Definição 1.3.7 Dois eventos, A e B , são estatisticamente independentes se (1.3.8)
P (A ∩ B ) = P (A)P (B ).
Observe que a independência poderia ter sido equivalentemente definida por (1.3.6) ou (1.3.7) (desde que P (A) > 0 ou P (B ) > 0). A vantagem de (1.3.8) é tratar os eventos simetricamente e, assim, será mais fácil generalizar para mais do que dois eventos. Muitos jogos de apostas oferecem modelos de eventos independentes. Girar uma roleta e lançar um par de dados são, ambos, séries de eventos independentes.
Exemplo 1.3.8 Chevalier de Meré O apostador apresentado no início deste capítulo, Chevalier de Meré, estava particularmente interessado no fato de que ele poderia obter, pelo menos, um seis em quatro lançamentos de um dado. Temos P (pelo menos 1 seis em 4 lançamentos) = 1 − P (nenhum seis em 4 lançamentos) = 1−
4 Y
P (nenhum seis no lançamento i ),
i =1
onde a última igualdade ocorre pela independência dos lançamentos. Em qualquer lançamento, a probabilidade de não cair um seis é 56 , portanto, P (no mínimo 1 seis em 4 lançamentos) = 1 −
µ ¶4 5 = 0,518. 6
A independência de A e B implica também a independência dos complementos. Na verdade, temos o seguinte teorema.
Teorema 1.3.9 Se A e B são eventos independentes, então, os seguintes pares também são independentes: a. A e B c , b. A c e B , c. A c e B c .
Prova: Comprovaremos somente (a), e o restante ficará para ser resolvido no Exercício 1.40. Para provar (a) devemos mostrar que P (A ∩ B c ) = P (A)P (B c ). A partir do Teorema 1.2.9a, temos P (A ∩ B c ) = P (A) − P (A ∩ B ) = P (A) − P (A)P (B )
( A e B são independentes)
= P (A)(1 − P (B )) = P (A)P (B c ).
■
A independência de mais que dois eventos pode ser definida de maneira similar a (1.3.8), mas é preciso ter cuidado. Por exemplo, podemos pensar que é possível dizer que A, B , e C são independentes se P (A ∩ B ∩C ) = P (A)P (B )P (C ). Todavia, esta não é a condição correta.
23
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 24, global #58)
i
i
24
Inferência Estatística
Exemplo 1.3.10 Lançando dois dados Digamos que um experimento consiste em lançar dois dados. Para este experimento, o espaço amostral é S = {(1,1),(1,2), . . . ,(1,6),(2,1), . . . ,(2,6), . . . , (6,1), . . . ,(6,6)};
ou seja, S consiste nos 36 pares ordenados formados a partir dos números de 1 a 6. Defina os seguintes eventos: A = {ocorrem duplos} = {(1,1),(2,2),(3,3),(4,4), (5,5),(6,6)}, B = {a soma está entre 7 e 10}, C = {a soma é 2 ou 7 ou 8}.
As probabilidades podem ser calculadas pela contagem entre os 36 resultados possíveis. Temos 1 1 1 P (A) = , P (B ) = e P (C ) = . 6 2 3 Além disso, P (A ∩ B ∩C ) = P (a soma é 8, composta de duplos 4s) 1 36 1 1 1 = × × 6 2 3 = P (A)P (B )P (C ). =
Contudo, P (B ∩C ) = P (a soma é igual a 7 ou 8) =
11 6= P (B )P (C ). 36
De modo similar, pode ser demonstrado que P (A ∩ B ) 6= P (A)P (B ); portanto, a exigência P (A ∩ B ∩ C ) = P (A)P (B )P (C ) não é uma condição suficientemente forte para assegurar a independência duas a duas. Uma segunda tentativa de uma definição geral de independência, com base no exemplo anterior, pode ser a de definir que A, B , e C sejam independentes se todos os pares forem independentes. Infelizmente, esta condição também falha. Exemplo 1.3.11 Letras Digamos que o espaço amostral S consiste nas 3! permutações das letras a, b e c, juntamente com os três triplos de cada letra. Desse modo, aaa bbb ccc S = abc bca cba . acb bac cab Além disso, digamos que cada elemento de S tem a probabilidade 19 . Defina A i = {i -ésimo lugar no triplo é ocupado por a}.
Assim, é fácil contar que 1 P (A i ) = , 3
i = 1,2,3,
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 25, global #59)
i
i
Teoria da probabilidade
e
1 P (A 1 ∩ A 2 ) = P (A 1 ∩ A 3 ) = P (A 2 ∩ A 3 ) = , 9
de modo que A i s são independentes dois a dois. Mas P (A 1 ∩ A 2 ∩ A 3 ) =
1 6= P (A 1 )P (A 2 )P (A 3 ), 9
portanto, os A i s não satisfazem a exigência de probabilidade. Estes dois exemplos mostram que a independência simultânea (ou mútua) de uma sequência de eventos requer uma definição extremamente sólida. A definição a seguir funciona. Definição 1.3.12 Uma sequência de eventos A 1 , . . . ,A n é mutuamente independente se para qualquer subsequência A i 1 , . . . , A i k tivermos à ! ³ ´ k k Y \ P Ai j = P Ai j . j =1
j =1
Exemplo 1.3.13 Três lançamentos de moedas – I Considere o experimento de lançar uma moeda três vezes. Um ponto amostral para este experimento deve indicar o resultado de cada lançamento. Por exemplo, CaCaCo poderia indicar que duas caras e, depois, uma coroa foram observadas. O espaço amostral para este experimento tem oito pontos, a saber, {CaCaCa, CaCaCo, CaCoCa, CoCaCa, CoCoCa, CoCaCo, CaCoCo, CoCoCo}.
Suponhamos que C a i , i = 1,2,3, denota o evento em que o i -ésimo lançamento resulta em cara. Por exemplo, C a 1 = {CaCaCa,CaCaCo,CaCoCa,CaCoCo}.
(1.3.9)
Se atribuirmos a probabilidade 18 a cada ponto amostral, então, utilizando enumerações como (1.3.9), percebemos que P (Ca1 ) = P (Ca2 ) = P (Ca3 ) = 12 . Isto demonstra que a moeda é equilibrada e tem igual probabilidade de que saia cara ou coroa em cada lançamento. De acordo com este modelo de probabilidade, os eventos Ca1 , Ca2 e Ca3 são também mutuamente independentes. Para verificar isto, observamos que P (Ca1 ∩ Ca2 ∩ Ca3 ) = P ({CaCaCa}) =
1 1 1 1 = · · = P (Ca1 )P (Ca2 )P (Ca3 ). 8 2 2 2
Para verificar a condição na Definição 1.3.12, também precisamos verificar cada par. Por exemplo, P (Ca1 ∩ Ca2 ) = P ({CaCaCa, CaCaCo}) =
2 1 1 = · = P (Ca1 )P (Ca2 ). 8 2 2
A igualdade também é verdadeira para os outros dois pares. Portanto, Ca1 , Ca2 e Ca3 são mutuamente independentes. Isto é, a ocorrência de cara em qualquer lançamento não tem nenhum efeito em qualquer um dos outros lançamentos. É possível verificar que a atribuição da probabilidade 18 a cada ponto amostral é o único modelo de probabilidade que tem P (Ca1 ) = P (Ca2 ) = P (Ca3 ) = 12 e Ca1 ,Ca2 e Ca3 como mutuamente independentes.
25
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 26, global #60)
i
i
26
Inferência Estatística
1.4
VARIÁVEIS ALEATÓRIAS
Em muitos experimentos, é mais fácil lidar com uma variável sumária do que com a estrutura de probabilidade original. Por exemplo, em uma pesquisa de opiniões, podemos decidir perguntar a 50 pessoas se elas concordam ou discordam de uma determinada questão. Se atribuirmos um “1” a concordar e “0” a discordar, o espaço amostral para este experimento tem 250 elementos, cada um deles sendo uma sequência ordenada de 1s e 0s, de tamanho de 50. É possível reduzir esta sequência para um tamanho razoável! Pode ser que a única quantidade que interessa seja o número de pessoas que concordam (e, equivalentemente, discordam) entre as 50 e, se definirmos uma variável X = número de 1s registrados entre 50, capturamos a essência do problema. Observe que o espaço amostral para X é o conjunto de números inteiros {0, 1, 2, . . . , 50}, e que é muito mais fácil lidar com este do que com o espaço amostral original. Ao especificarmos a quantidade X , definimos uma transformação (uma função) a partir do espaço amostral original para um novo espaço amostral, geralmente um conjunto de números reais. Em geral, temos a seguinte definição. Definição 1.4.1 Uma variável aleatória é uma função de um espaço amostral S nos números reais. Exemplo 1.4.2 Variáveis aleatórias Em alguns experimentos, as variáveis aleatórias são utilizadas implicitamente; eis alguns exemplos. Exemplos de variáveis aleatórias Experimentos
Variáveis Aleatórias
Lançamento de dois dados Lançamento de uma moeda 25 vezes Aplicar diferentes quantidades de fertilizante em pés de milho
X = soma dos números X = número de cargas em 25 lançamentos X = colheita/acre
Ao definir uma variável aleatória, também especificamos um novo espaço amostral (o conjunto de valores da variável aleatória). Agora, devemos verificar formalmente que nossa função de probabilidade, que é definida no espaço amostral original, pode ser utilizada para a variável aleatória. Suponha que temos um espaço amostral S = {s 1 , . . . ,s n }
com uma função de probabilidade P e definimos uma variável aleatória X com valores em X = {x 1 , . . . ,x m }. Podemos definir uma função de probabilidade P X em X da seguinte maneira. Observaremos X = x i se e somente se o resultado do experimento aleatório for um s j ∈ S de modo que X (s j ) = x i . Portanto, ¡ ¢ P X (X = x i ) = P {s j ∈ S : X (s j ) = x i } . (1.4.1) Note que, do lado esquerdo de (1.4.1), a função P X é uma função de probabilidade induzida em X , definida em termos da função original P . A Equação (1.4.1) define formalmente uma função de probabilidade, P X , para a variável aleatória X . Naturalmente, temos de verificar se P X satisfaz os Axiomas de Kolmogorov, mas essa não é uma tarefa muito difícil (veja o Exercício1.45). Por causa da equivalência em (1.4.1), simplesmente escrevemos P (X = x i ) em vez de P X (X = x i ).
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 27, global #61)
i
i
Teoria da probabilidade
Uma observação sobre notação: variáveis aleatórias sempre devem ser denotadas com letras maiúsculas e os valores assumidos pelas variáveis serão denotados pelas letras minúsculas correspondentes. Portanto, a variável aleatória X pode assumir o valor x .
Exemplo 1.4.3 Três lançamentos de moedas – II Considere novamente o experimento de lançar uma moeda equilibrada três vezes, do Exemplo 1.3.13. Defina a variável aleatória X para que seja o número de vezes que saiu cara nos três lançamentos. Uma enumeração completa do valor de X para cada ponto no espaço amostral é s
CaCaCa
CaCaCo
CaCoCa
CoCaCa
CoCoCa
CoCaCo
CaCoCo
CoCoCo
X (s)
3
2
2
2
1
1
1
0
O conjunto de valores para a variável aleatória X é X = {0,1,2,3}. Assumindo que todos os oito pontos em S têm a probabilidade 18 , simplesmente fazendo a contagem, no diagrama anterior, vemos que a função de probabilidade induzida em X é dada por x
0
1
2
3
P X (X = x)
1 8
3 8
3 8
1 8
Por exemplo, P X (X = 1) = P ({CaCoCo,CoCaCo,CoCoCa}) = 83 .
Exemplo 1.4.4 Distribuição de uma variável aleatória Pode ser possível determinar P X mesmo se uma completa listagem, como no Exemplo 1.4.3, não for possível. Digamos que S seja as 250 sequências de 50 0s e 1s, X = número de 1s, e X = {0,1,2, . . . ,50}, conforme mencionado no início desta seção. Suponha que cada uma das 250 sequências seja igualmente provável. A probabilidade de que X = 27 pode ser obtida pela contagem de todas as sequências com 27 1s, no espaço amostral original. Uma vez que cada sequência é igualmente provável, temos que ³ ´ 50 # de sequências com 27 1s 27 P X (X = 27) = = 50 . # sequências 2 Em geral, para qualquer i ∈ X , ³ P X (X = i ) =
50 i
´
250
.
As ilustrações anteriores têm um S e um X finitos, e a definição de P X foi direta. Este também é o caso se X for contável. Se X for não contável, definimos a função de probabilidade induzida, P X , de uma maneira similar a (1.4.1). Para qualquer conjunto A ⊂X, P X (X ∈ A) = P ({s ∈ S : X (s) ∈ A}) .
(1.4.2)
27
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 28, global #62)
i
i
28
Inferência Estatística
Isto define uma legítima função de probabilidade para a qual os Axiomas de Kolmogorov podem ser verificados. (Para ser preciso, utilizamos (1.4.2) para definir probabilidades somente para uma determinada sigma álgebra de subconjuntos de X . Mas não vamos nos preocupar com estes aspectos técnicos agora.)
1.5
FUNÇÕES DE DISTRIBUIÇÃO
A cada uma das variáveis aleatórias X associamos uma função chamada de função de distribuição acumulada de X . Definição 1.5.1 A função de distribuição acumulada, ou fda, de uma variável aleatória X , denotada por F X (x), é definida por F X (x) = P X (X ≤ x), para todo x. Exemplo 1.5.2 Lançamento de três moedas Considere o experimento de lançar três moedas equilibradas e seja X = número de caras observado. A fda de X é 0 se − ∞ < x < 0 1 se 0 ≤ x < 1 8 F X (x) = 12 se 1 ≤ x < 2 (1.5.1) 7 se 2 ≤ x < 3 8 1 se 3 ≤ x < ∞. A função escada F X (x) é representada na Figura 1.5.1.
Fig. 1.5.1 Fda do Exemplo 1.5.2
Existem vários pontos a ser observados na Figura 1.5.1. F X é definido para todos os valores de x , não somente para aqueles em X = {0, 1, 2, 3}. Deste modo, por exemplo, 7 F X (2,5) = P (X ≤ 2,5) = P (X = 0, 1 ou 2) = . 8
Observe que F X tem saltos nos valores de x i ∈ X e que o tamanho do salto em x i é igual a P (X = x i ). Além disso, F X (x) = 0 para x < 0, uma vez que X não pode ser negativo, e F X (x) = 1 para x ≥ 3, uma vez que x certamente é menor ou igual a esse valor.
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 29, global #63)
i
i
Teoria da probabilidade
Como mostra a Figura 1.5.1, F X pode ser descontínua, com saltos em determinados valores de x . Contudo, pelo modo como F X é definida, nos pontos de saltos F X assume o valor na parte superior do salto. (Observe as diferentes desigualdades em (1.5.1).) Isto é conhecido como continuidade à direita – a função é contínua quando um ponto é abordado pela direita. A propriedade de continuidade à direita é uma consequência da definição da fda. Por outro lado, se tivermos definido F X (x) = P X (X < x) (observe a desigualdade estrita), F X será então contínua à esquerda. O tamanho do salto em qualquer ponto x é igual a P (X = x). Cada fda satisfaz determinadas propriedades, algumas das quais são óbvias quando pensamos na definição de F X (x) em termos de probabilidades. Teorema 1.5.3 Uma função F (x) é uma fda se, e somente se, forem obedecidas as três seguintes condições: a. limx→−∞ F (x) = 0 e limx→∞ F (x) = 1. b. F (x) é uma função não decrescente de x . c. F (x) é contínua à direita; isto é, para cada número x 0 , limx↓x0 F (x) = F (x 0 ). Prova: Esboço da prova Para provar a condição necessária, as três propriedades podem ser verificadas escrevendo-se F em termos da função de probabilidade (veja o Exercício 1.48). É muito mais difícil provar a suficiência, pois trata-se de mostrar que, se uma função F satisfaz as três condições do teorema, então ela é uma fda para alguma variável aleatória. Devemos estabelecer que existe um espaço amostral S , uma função de probabilidade P em S e uma variável aleatória X definida em S , de modo que F é a fda de X . ■ Exemplo 1.5.4 Lançamento de moeda até obter cara Suponha que façamos um experimento que consiste em lançar uma moeda até que o resultado seja cara. Digamos que p = probabilidade de obter cara em qualquer lançamento, e definimos uma variável aleatória X = número de lançamentos requeridos para se obter uma cara. Então, para qualquer x = 1,2, . . . , P (X = x) = (1 − p)x−1 p,
(1.5.2)
uma vez que obtemos x −1 coroas seguidas por uma cara para que o evento ocorra e todas as tentativas são independentes. A partir de (1.5.2) calculamos, para qualquer número inteiro positivo x , x x X X P (X ≤ x) = P (X = i ) = (1 − p)i −1 p. (1.5.3) i =1
i =1
A soma parcial da série geométrica é n X
t k−1 =
k=1
1− tn , 1−t
t 6= 1,
(1.5.4)
um fato que pode ser estabelecido pela indução (veja o Exercício 1.50). Aplicando (1.5.4) à nossa probabilidade, descobrimos que a fda da variável aleatória X é F X (x) = P (X ≤ x) =
1 − (1 − p)x p 1 − (1 − p)
= 1 − (1 − p)x ,
x = 1,2, . . . .
29
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 30, global #64)
i
i
30
Inferência Estatística
A fda F X (x) é constante entre números inteiros não negativos, como no Exemplo 1.5.2. É fácil demonstrar que se 0 < p < 1, então F X (x) satisfaz as condições do Teorema 1.5.3. Primeiro, lim F X (x) = 0 x→−∞
uma vez que F X (x) = 0 para todo x < 0, e lim F X (x) = lim 1 − (1 − p)x = 1,
x→∞
x→∞
onde x assume apenas valores inteiros quando este limite é definido. Para verificar a propriedade (b), simplesmente observe que a soma em (1.5.3) contém mais termos positivos à medida que x aumenta. Por fim, para verificar (c), observe que, para quaisquer x , F X (x + ²) =F X (x) se ² > 0 for suficientemente pequeno. Portanto, lim F X (x + ²) = F X (x), ²↓0
de modo que F X (x) é contínuo à direita. F X (x) é a fda de uma distribuição chamada de distribuição geométrica (fazendo referência às séries) e é descrita na Figura 1.5.2.
Fig. 1.5.2 Fda geométrica, p = 0,3
Exemplo 1.5.5 Fda contínua Um exemplo de fda contínua é a função F X (x) =
1 , 1 + e −x
(1.5.5)
que satisfaz as condições do Teorema 1.5.3. Por exemplo, lim F X (x) = 0
desde que
lim F X (x) = 1
desde que
x→−∞
lim e −x = ∞
x→−∞
e x→∞
lim e −x = 0.
x→∞
Diferenciando F X (x), resulta em d e −x F X (x) = > 0, dx (1 + e −x )2
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 31, global #65)
i
i
Teoria da probabilidade
mostrando que F X (x) é crescente. F X não é somente contínua à direita, mas é também contínua. Este é um caso especial da distribuição logística.
Exemplo 1.5.6 Fda com saltos Se F X não é uma função contínua de x , é possível que seja uma mistura de trechos e saltos contínuos. Por exemplo, se modificarmos F X (x) de (1.5.5) para ser, para algum ², 1 > ² > 0, 1−² se y < 0 1 + e −y F Y (y) = (1.5.6) (1 − ²) ² + se y ≥ 0, 1 + e −y então F Y (y) é a fda de uma variável aleatória Y (veja o Exercício 1.47). A função F Y tem um salto de altura ² em y = 0 e, no restante, é contínua. Este modelo pode ser apropriado se estivermos observando a leitura a partir de um medidor, uma leitura que poderia (teoricamente) ficar em qualquer ponto entre −∞ e ∞. Entretanto, este medidor em particular, algumas vezes, imobiliza-se no 0. Poderíamos, então, modelar nossas observações com F Y , onde ² é a probabilidade de que o medidor se imobilize. Se uma fda é contínua ou se tem saltos, isto corresponde a se as variáveis aleatórias associadas são contínuas ou não. Na verdade, a associação é de tal modo que é conveniente definir variáveis aleatórias contínuas, da maneira seguinte. Definição 1.5.7 Uma variável aleatória X é contínua se F X (x) for uma função contínua de x . Uma variável aleatória X é discreta se F X (x) for uma função escada de x . Encerramos esta seção com um teorema que define formalmente que F X determina completamente a distribuição de probabilidade de uma variável aleatória X . Isto é verdadeiro se P (X ∈ A) for definido somente para eventos A em B 1 , a menor sigma álgebra contendo todos os intervalos de números reais da forma (a,b), [a,b), (a,b] e [a,b]. Se forem definidas probabilidades para uma classe maior de eventos, é possível que duas variáveis aleatórias tenham a mesma função de distribuição, mas não a mesma probabilidade para cada evento (veja Chung, 1974, p. 27). Neste livro, como na maioria das aplicações estatísticas, estamos preocupados somente com eventos que sejam intervalos, uniões ou interseções contáveis de intervalos etc. Assim, não consideramos estes casos patológicos. Primeiro, precisamos da noção de duas variáveis aleatórias sendo identicamente distribuídas. Definição 1.5.8 As variáveis aleatórias X e Y são identicamente distribuídas se, para cada conjunto A ∈ B 1 , P (X ∈ A) = P (Y ∈ A). Observe que duas variáveis aleatórias que são identicamente distribuídas não são necessariamente iguais. Isto é, a Definição 1.5.8 não diz que X = Y . Exemplo 1.5.9 Variáveis aleatórias identicamente distribuídas Considere o experimento de lançar uma moeda equilibrada três vezes, como no Exemplo 1.4.3. Defina as variáveis aleatórias X e Y por X = número de caras observado
e Y = número de coroas observado.
31
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 32, global #66)
i
i
32
Inferência Estatística
A distribuição de X é dada no Exemplo 1.4.3, e é possível verificar facilmente se a distribuição de Y é exatamente a mesma. Isto é, para cada k = 0,1,2,3, temos P (X = k) = P (Y = k). Portanto X e Y são identicamente distribuídos. Contudo, em nenhum dos pontos amostrais temos X (s) = Y (s). Teorema 1.5.10 As seguintes proposições são equivalentes: a. As variáveis aleatórias X e Y são identicamente distribuídas. b. F X (x) = F Y (x) para cada x . Prova: Para demonstrar equivalência, precisamos mostrar que cada proposição implica a outra. Primeiro, mostramos que (a) ⇒ (b). Como X e Y são identicamente distribuídas, para qualquer conjunto A ∈ B 1 , P (X ∈ A) = P (Y ∈ A). Em particular, para cada x o conjunto (−∞, x] está em B 1 , e F X (x) = P (X ∈ (−∞,x]) = P (Y ∈ (−∞,x]) = F Y (x).
A implicação reversa, de que (b) ⇒ (a), é muito mais difícil de ser comprovada. O argumento anterior mostrou que se as probabilidades X e Y concordam em todos os conjuntos, então elas concordam nos intervalos. Agora, devemos provar o oposto; ou seja, se as probabilidades X e Y concordam em todos os intervalos, então elas concordam em todos os conjuntos. Demonstrar isto exige o intenso uso de sigmas álgebras; mas não entraremos nestes detalhes aqui. Basta dizer que é necessário provar somente que as duas funções de probabilidade concordam em todos os intervalos (Chung, 1974, Seção 2.2). ■
1.6
FUNÇÕES DENSIDADE E DE PROBABILIDADE
Associado com uma variável aleatória X e sua fda F X existe outra função, chamada de função densidade de probabilidade (fdp) ou função de probabilidade (fp). Os termos fdp e fp se referem, respectivamente, aos casos contínuo e discreto. Os fdps e fps estão relacionados com as “probabilidades pontuais” de variáveis aleatórias. Definição 1.6.1 A função de probabilidade (fp) de uma variável aleatória discreta X é dada por f X (x) = P (X = x)
para todo x.
Exemplo 1.6.2 Probabilidades geométricas Para a distribuição geométrica do Exemplo 1.5.4, temos a fp ( (1 − p)x−1 p para x = 1,2, . . . f X (x) = P (X = x) = 0 do contrário. Lembre-se de que P (X = x) ou, de modo equivalente, f X (x), é o tamanho do salto na fda em x . Podemos utilizar a fp para calcular probabilidades. Uma vez que agora podemos medir a probabilidade de um ponto único, precisamos somente somá-las em todos os pontos do evento apropriado. Portanto, para números inteiros positivos a e b , com a ≤ b , temos b b X X P (a ≤ X ≤ b) = f X (k) = (1 − p)k−1 p . k=a
k=a
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 33, global #67)
i
i
Teoria da probabilidade
Como um caso especial disto, obtemos P (X ≤ b) =
b X
f X (k) = F X (b).
(1.6.1)
k=1
Uma convenção amplamente aceita, que adotaremos, é utilizar uma letra maiúscula para a fda e a letra minúscula correspondente para a fp ou a fdp. Devemos ser um pouco mais cuidadosos em nossa definição de uma fdp no caso contínuo. Se simplesmente tentarmos calcular P (X = x) para uma variável aleatória contínua, obtemos o seguinte. Como {X = x} ⊂ {x − ² < X ≤ x} para qualquer ² > 0, temos, a partir do Teorema 1.2.9(c), que P (X = x) ≤ P (x − ² < X ≤ x) = F X (x) − F X (x − ²)
para qualquer ² > 0. Portanto, 0 ≤ P (X = x) ≤ lim [F X (x) − F X (x − ²)] = 0 ²↓0
pela continuidade de F X . Contudo, se compreendermos o propósito da fdp, sua definição se tornará clara. A partir do Exemplo 1.6.2, percebemos que uma fp nos dá “probabilidades pontuais”. No caso discreto, podemos somar os valores da fp para obter a fda (como em (1.6.1)). O procedimento análogo no caso contínuo é substituir as somas por integrais, e obtemos Z x P (X ≤ x) = F X (x) = f X (t ) d t . −∞
Utilizando o Teorema Fundamental de Cálculo, se f X (x) for contínua, temos a seguinte relação d F X (x) = f X (x). (1.6.2) dx Note que a analogia com o caso discreto é quase exata. “Adicionamos” as “probabilidades pontuais” f X (x) para obter probabilidades dos intervalos. Definição 1.6.3 A função densidade de probabilidade ou fdp, f X (x), de uma variável aleatória contínua X é a função que satisfaz Z x
F X (x) =
−∞
f X (t ) d t
para todo x.
(1.6.3)
Uma observação sobre notação: a expressão “ X têm uma distribuição dada por F X (x)” e é abreviada simbolicamente por “ X ∼ F X (x)”, onde o símbolo “∼” significa “é distribuído como”. De modo similar, podemos escrever X ∼ f X (x) ou, se X e Y têm a mesma distribuição, X ∼Y. No caso contínuo, podemos ser mais diretos sobre a especificação das probabilidades de intervalos. Como P (X = x) = 0 se X é uma variável aleatória contínua, P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b).
Deve ficar claro que a fdp (ou fp) contém as mesmas informações que a fda. Sendo este o caso, podemos utilizar uma delas para resolver problemas e devemos tentar escolher a mais simples.
33
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 34, global #68)
i
i
34
Inferência Estatística
Exemplo 1.6.4 Probabilidades logísticas Para a distribuição logística do Exemplo 1.5.5 temos F X (x) =
e, portanto, f X (x) =
1 1 + e −x
d e −x . F X (x) = dx (1 + e −x )2
A área sob a curva f X (x) nos dá probabilidades dos intervalos (veja a Figura 1.6.1): P (a < X < b) = F X (b) − F X (a) Z b Z = f X (x) d x − −∞ b
a
−∞
f X (x) d x
Z =
a
f X (x) d x.
Fig. 1.6.1 Área sob a curva logística
Na verdade, existem somente duas exigências para uma fdp (ou fp), e ambas são consequências imediatas da definição. Teorema 1.6.5 Uma função f X (x) é uma fdp (ou fp) de uma variável aleatória X se, e somente se, a. f X (x) ≥ 0 para todo x . R∞ P b. x f X (x) = 1 (fp) ou −∞ f X (x) d x = 1 (fdp). Prova: Se f X (x) é uma fdp (ou fp), então, as duas propriedades são imediatas a partir das definições. Em particular, para uma fdp, utilizando (1.6.3) e o Teorema 1.5.3, temos que Z ∞ 1 = lim F X (x) = f X (t ) d t . x→∞
−∞
A implicação inversa é igualmente fácil de ser comprovada. Uma vez que temos f X (x), podemos definir F X (x) e recorrer ao Teorema 1.5.3. ■ A partir de um ponto de vista puramente matemático, qualquer função não negativa com uma integral (ou soma) positiva e finita pode ser transformada em uma fdp ou fp. Por exemplo, se h(x) for qualquer função não negativa que é positiva em um conjunto A , 0 em qualquer outra parte, e Z {x∈A}
h(x) d x = K < ∞
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 35, global #69)
i
i
Teoria da probabilidade
para alguma constante K > 0, então a função f X (x) = h(x)/K é uma fdp de uma variável aleatória X assumindo valores em A . Na verdade, a relação (1.6.3) nem sempre se mantém porque F X (x) pode ser contínua, mas não diferenciável. De fato, existem variáveis aleatórias contínuas para as quais as integrais relacionadas não existem para qualquer f X (x). Esses casos são bastante patológicos e iremos ignorá-los. Portanto, neste livro, assumiremos que (1.6.3) se mantém para qualquer variável aleatória contínua. Em livros mais avançados (por exemplo, Billingsley, 1995, Seção 31), uma variável aleatória é chamada de absolutamente contínua se (1.6.3) se mantiver.
1.7
EXERCÍCIOS
1.1 Para cada um dos seguintes experimentos, descreva o espaço amostral. a. Lançar uma moeda quatro vezes. b. Contar o número de folhas danificadas por insetos em uma planta. c. Medir o tempo de duração (em horas) de uma determinada marca de lâmpada. d. Registrar os pesos de ratos com dez dias de vida. e. Observar a proporção de dispositivos com defeito em uma remessa de componentes eletrônicos. 1.2 Verificar as seguintes identidades. a. A\B = A\(A ∩ B ) = A ∩ B c b. B = (B ∩ A) ∪ (B ∩ A c ) c. B \A = B ∩ A c d. A ∪ B = A ∪ (B ∩ A c ) 1.3 Conclua a prova do Teorema 1.1.4. Para quaisquer eventos A , B e C definidos em um espaço amostral S , mostrar que a. A ∪ B = B ∪ A e A ∩ B = B ∩ A . (comutatividade) b. A ∪ (B ∪C ) = (A ∪ B ) ∪C e A ∩ (B ∩C ) = (A ∩ B ) ∩C . (associatividade) c. (A ∪ B )c = A c ∩ B c e (A ∩ B )c = A c ∪ B c . (Leis de DeMorgan) 1.4 Para os eventos A e B , encontre as fórmulas para as probabilidades dos seguintes eventos em termos das quantidades P (A), P (B ) e P (A ∩ B ). a. ou A , ou B , ou ambos. b. ou A , ou B , mas não ambos. c. pelo menos um de A ou B . d. no máximo um de A ou B . 1.5 Aproximadamente um terço de todos os gêmeos humanos são idênticos (univitelinos) e dois terços são fraternos (bivitelinos). Gêmeos idênticos são necessariamente do mesmo sexo, com homens e mulheres sendo igualmente prováveis. Entre os gêmeos fraternos, aproximadamente um quarto são, ambas, mulheres, e um quarto são, ambos, homens, e metade é caracterizada por um homem e uma mulher. Por fim, entre todos os nascimentos ocorridos nos Estados Unidos, aproximadamente 1 em 90 é um nascimento de gêmeos. Defina os seguintes eventos: A = {um nascimento nos EUA resulta em meninas gêmeas} B = {um nascimento nos EUA resulta em gêmeos} C = {um nascimento nos EUA resulta em gêmeos idênticos}
a. Defina, em palavras, o evento A ∩ B ∩C . b. Encontre P (A ∩ B ∩C ).
35
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 36, global #70)
i
i
36
Inferência Estatística 1.6 Duas moedas, um com P (cara) = u e um com P (cara) = w , devem ser lançados juntos, independentemente. Defina p 0 = P (0 caras ocorrem), p 1 = P (1 cara ocorre), p 2 = P (2 caras ocorrem). u e w podem ser escolhidos, de modo que p 0 = p 1 = p 2 ? Comprove sua resposta.
1.7 Tome como base o jogo de dardos do Exemplo 1.2.7. Suponha que não assumimos que a probabilidade de atingir o alvo seja 1, mas proporcional à área do alvo. Assuma que o alvo é colocado em uma parede que é atingida com a probabilidade 1, e a parede tem área A . a. Utilizando o fato de que a probabilidade de atingir uma região é proporcional à área, construa uma função de probabilidade para P (pontos i marcados)i = 0, . . . ,5. (Nenhum ponto é marcado se o alvo não for atingido.) b. Mostre que a distribuição da probabilidade condicional P (marcar i Pontos | o alvo é atingido) é exatamente a distribuição de probabilidade do Exemplo 1.2.7. 1.8 Novamente, utilize como referência o jogo de dardos explicado no Exemplo 1.2.7. a. Derive a fórmula geral para a probabilidade de marcar i pontos. b. Mostre que P (marcar i pontos) é uma função decrescente de i , ou seja, à medida que os pontos aumentam, a probabilidade de marcá-los diminui. c. Mostre que P (marcar i pontos) é uma função de probabilidade, de acordo com os Axiomas de Kolmogorov. 1.9 Prove a versão geral das Leis de DeMorgan. Digamos que {A α : α ∈ Γ} seja uma família (possivelmente não contável) de conjuntos. Demonstre que a. (∪α A α )c = ∩α A cα . b. (∩α A α )c = ∪α A cα . 1.10 Formule e prove uma versão das Leis de DeMorgan que se aplique a uma sequência finita de conjuntos A 1 , . . . , A n . 1.11 Seja S seja um espaço amostral. a. Mostre que a família B = {;,S} é uma sigma álgebra. b. Digamos que B = {todos os subconjuntos de S, incluindo o próprio S}. Mostre que B é uma sigma álgebra. c. Mostre que a interseção de duas sigmas álgebras é uma sigma álgebra. 1.12 Foi observado, na Seção 1.2.1, que os estatísticos adeptos da escola de deFinetti não aceitam o Axioma da Aditividade Contável; em vez disso, adotam o Axioma da Aditividade Finita. a. Mostre que o Axioma da Aditividade Contável implica a Aditividade Finita. b. Embora, por si mesmo, o Axioma da Aditividade Finita não implique a Aditividade Contável, suponha que a suplementemos com o que se segue. Digamos que A 1 ⊃ A 2 ⊃ · · · ⊃ A n ⊃ · · · seja uma sequência infinita de conjuntos aninhados, cujo limite é o conjunto vazio, o qual denotamos por A n ↓ ;. Considere o seguinte: Axioma da continuidade:
Se A n ↓ ;, então P (A n ) → 0.
Prove que o Axioma da Continuidade e Axioma da Aditividade Finita implicam a Aditividade Contável. 1.13 Se P (A) =
1 3
e P (B c ) = 14 , A e B podem ser disjuntos? Explique.
1.14 Suponha que o espaço amostral S tenha n elementos. Prove que o número de subconjuntos que pode ser formado a partir de elementos de S é 2n . 1.15 Conclua a prova do Teorema 1.2.14. Utilize o resultado estabelecido para k = 2 como a base de um argumento de indução.
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 37, global #71)
i
i
Teoria da probabilidade 1.16 Quantos diferentes conjuntos de iniciais podem ser formados se cada pessoa tiver um sobrenome e a. exatamente, dois dados nomes? b. um ou dois dados nomes? c. um, ou dois, ou três dados nomes? (Respostas: (a) 263 (b) 263 + 262 (c) 264 + 263 + 262 ) 1.17 No jogo de dominós, cada peça é marcada com dois números. As peças são simétricas, de modo que os pares não são ordenados (portanto, por exemplo, (2,6) = (6,2)). Quantas diferentes peças podem ser formadas utilizando os números 1,2, . . . , n ? (Resposta: n(n + 1)/2) 1.18 Se n bolas são colocadas aleatoriamente em n células, descubra a probabilidade de que exatamente uma célula permaneça vazia. ¡ ¢ (Resposta: n2 n!/n n ) 1.19 Se uma função multivariada tem derivadas parciais contínuas, a ordem na qual as derivadas são calculadas não faz diferença. Por exemplo, a função f (x,y) de duas variáveis tem terceiras parciais iguais ∂3 ∂3 f (x,y) = f (x,y). 2 ∂x ∂y ∂y∂x 2 a. Quantas quartas derivadas parciais possui³ uma função de três variáveis? ´ b. Prove que uma função de n variáveis tem n+rr −1 r -ésimo derivadas parciais. 1.20 Meu telefone toca 12 vezes por semana, e os telefonemas são aleatoriamente distribuídos entre os 7 dias da semana. Qual é a probabilidade de que eu receba, pelo menos, um telefonema por dia? (Resposta: 0,2285) 1.21 Um closet contém n pares de sapatos. Se 2r sapatos são escolhidos aleatoriamente (2r < n ), qual é a probabilidade de não haver nenhum par correto na amostra? ¡ n ¢ 2r ¡2n ¢ (Resposta: 2r 2 / 2r ) 1.22 a. Em um sorteio do tipo loteria, contendo os 366 dias do ano (incluindo o dia 29 de fevereiro), qual é a probabilidade de que os primeiros 180 dias retirados (sem reposição) sejam igualmente distribuídos entre os 12 meses? b. Qual é probabilidade de que os primeiros 30 dias retirados não contenham nenhum dia do mês de setembro? ¡ ¢ ¡366¢ (Respostas: (a) 0,167 × 10−8 (b) 336 30 / 30 ) 1.23 Duas pessoas lançam, cada uma delas, uma moeda equilibrada n vezes. Descubra a probabilidade de que elas obtenham o mesmo número de caras. ¡ ¢n ¡2n ¢ (Resposta: 14 n ) 1.24 Dois jogadores, A e B, alternada e independentemente, lançam uma moeda e o primeiro jogador que obtém cara vence. Assuma que o jogador A lança a moeda primeiro. a. Se a moeda for equilibrada, qual é a probabilidade de que A vença? b. Suponha que P (cara) = p , não necessariamente 21 . Qual é a probabilidade de que A vença? c. Mostre que para todo p, 0 < p < 1, P (A vence) > 21 . (Dica: tente escrever P (A vence) em termos dos eventos E 1 ,E 2 , . . ., onde E i = { aparece primeiro no i -ésimo lançamento}.) p (Respostas: (a) 2/3 (b) 1−(1−p)2 ) 1.25 Os Smith têm dois filhos. Pelo menos um deles é menino. Qual é a probabilidade de que os dois filhos sejam meninos? (Veja Gardner, 1961, para uma análise completa deste problema.) 1.26 Um dado equilibrado é lançado até que apareça um 6. Qual é a probabilidade de que devam ser feitos mais do que cinco lançamentos? 1.27 Verifique as seguintes identidades para n ≥ 2. ¡ ¢ Pn a. (−1)k nk = 0 ¡ ¢ Pk=0 n b. k n = n2n−1 Pnk=1 k k+1 ¡ n ¢ c. (−1) k k = 0 k=1
37
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 38, global #72)
i
i
38
Inferência Estatística 1.28 Um meio de aproximação de grandes fatoriais é por meio do uso da Fórmula de Stirling: p n! ≈ 2πn n+(1/2) e −n , da qual é difícil uma completa derivação. Ao invés disso, prove o fato mais fácil, lim
n→∞
n! n n+(1/2) e −n
= uma constante.
(Dica: Feller, 1968, prossegue utilizando a monotonicidade do logaritmo para estabelecer que Z
k
k−1
Z log x d x < log k <
k+1
log x d x, k
k = 1, . . . , n,
e, portanto, Z 0
n
Z log x d x < log n! <
n+1
log x d x. 1
Agora, compare log n! à média das duas integrais. Veja o Exercício 5.35 para outra derivação.) 1.29 a. Para a situação do Exemplo 1.2.20, enumere as amostras ordenadas que compõem as amostras não ordenadas {4,4,12,12} e {2,9,9,12}. b. Suponha que temos um conjunto de seis números, {1,2,7,8,14,20}. Qual é a probabilidade de obter, com reposição, a amostra não ordenada {2,7,7,8,14,14}? c. Verifique se uma amostra não ordenada de tamanho k , de m diferentes números repetidos k! k 1 , k 2 , . . . ,k m vezes, tem componentes ordenados, onde k 1 + k 2 + · · · + k m = k . k 1 !k 2 ! · · · k m ! d. Estabeleça que o número de coeficientes multinomiais e, desse modo, o número de amos¡ ¢ tras bootstrap distintas, seja k+m−1 . Em outras palavras, k Ã
! k +m −1 I {k1 +k2 +···+km =k} = . k k 1 ,k 2 ,...,k m X
1.30 Para o conjunto de seis números, {1,2,7,8,14,20}, obtenha um histograma da distribuição de todas as possíveis médias amostrais calculadas a partir de amostras obtidas com reposição. 1.31 Para a situação do Exemplo 1.2.20, a média do conjunto original de números {2,4,9,12} é 27 4 , que tem a maior probabilidade. a. Prove que, em geral, se considerarmos uma amostra com reposição a partir do conjunto {x 1 , x 2 , . . . ,x n }, o resultado com média (x 1 + x 2 +· · ·+ x n )/n é o mais provável, tendo a probabilidade nn!n . p b. Utilize a Fórmula de Stirling (Exercício 1.28) para mostrar que n!/n n ≈ 2nπ/e n (Hall 1992, Apêndice I). c. Mostre que a probabilidade de que um determinado x i esteja faltando em um resultado é (1 − n1 )n → e −1 , uma vez que n → ∞. 1.32 Uma companhia está prestes a contratar um novo empregado, selecionando a partir de um grupo de N candidatos, cujo futuro potencial pode ser classificado em uma escala de 1 até N . A companhia prossegue, de acordo com as seguintes regras: a. Cada candidato é considerado sucessivamente (em ordem aleatória) e é tomada uma decisão quanto a contratá-lo. b. Depois de ter rejeitado m − 1 candidatos (m > 1), a companhia pode contratar o m -ésimo candidato somente se o m -ésimo candidato for melhor que os anteriores m − 1. Suponha que um candidato seja contratado na i -ésima experiência. Qual é a probabilidade de que o melhor candidato tenha sido contratado? 1.33 Suponha que 5% dos homens e 0,25% das mulheres sejam daltônicos. Uma pessoa daltônica é escolhida aleatoriamente. Qual é a probabilidade de que essa pessoa seja homem? (Considere que homens e mulheres estão em igual número.)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 39, global #73)
i
i
Teoria da probabilidade 1.34 Nasceram duas ninhadas de uma determinada espécie de roedores, uma delas com dois filhotes marrons e um cinza (ninhada 1), e a outra com três filhotes marrons e dois cinzas (ninhada 2). Selecionamos aleatoriamente uma ninhada e, então, escolhemos um filhote, também aleatoriamente, desta ninhada. a. Qual é a probabilidade de que o animal escolhido seja marrom? b. Considerando que um filhote marrom tenha sido escolhido, qual é a probabilidade de que o espécime seja da ninhada 1? 1.35 Prove que se P (·) for uma função de probabilidade legítima e B for um conjunto com P (B ) > 0, então P (·|B ) também satisfaz os Axiomas de Kolmogorov. 1.36 Se a probabilidade de atingir um alvo é 51 e são feitos dez lançamentos de dardos, independentemente, qual é a probabilidade de o alvo ser atingido pelo menos duas vezes? Qual é a probabilidade condicional de que o alvo seja atingido pelo menos duas vezes, considerando que é atingido ao menos uma vez? 1.37 Vejamos aqui algumas variações do Exemplo 1.3.4. a. No cálculo do diretor, no Exemplo 1.3.4, foi considerado que se A fosse perdoado, então, com igual probabilidade, o diretor diria para A que B ou C seria executado. No entanto, este não é necessariamente o caso. O diretor pode atribuir as probabilidades γ e 1 − γ a esses eventos, como é mostrado aqui:
Prisioneiro perdoado
Diretor diz que é A
A A B C
B morre C morre C morre B morre
com probabilidade γ com probabilidade 1 − γ
Calcule P (A|W ) como uma função de γ. Para quais valores de γ é P (A|W ) menor, igual ou maior que 13 ? b. Suponha novamente que γ = 12 , como no exemplo. Depois que o diretor diz para A que B irá morrer, A pensa um pouco e percebe que seu cálculo original estava errado. Porém, A tem uma ideia brilhante e pergunta ao diretor se ele pode trocar de lugar com C. O diretor, pensando que não deu nenhuma informação para A, concorda com a ideia. Prove que o raciocínio de A agora está correto e que sua probabilidade de sobrevivência aumentou para 23 ! Um problema similar, mas um pouco mais complicado, conhecido como “problema de Monte Hall”, é discutido por Selvin (1975). O problema, sob esta abordagem, conquistou grande notoriedade quando foi mostrado na revista Sunday (vos Savant, 1990) juntamente com uma resposta correta, mas trazendo uma explicação questionável. O debate que se seguiu chegou a ser divulgado na primeira página do New York Times, edição de domiingo (Tierney, 1991). Uma abordagem completa e, de algum modo, divertida, é dada por Morgan et al. (1991) [veja também a resposta dada por vos Savant, 1991]. Chun (1999) praticamente esgota o problema com uma análise bastante completa. 1.38 Prove cada uma das seguintes declarações. (Considere que qualquer evento condicional tem probabilidade positiva.) a. Se P (B ) = 1, então P (A|B ) = P (A) para qualquer A . b. Se A ⊂ B , então P (B |A) = 1 e P (A|B ) = P (A)/P (B ). c. Se A e B são mutuamente exclusivos, então P (A|A ∪ B ) =
d. P (A ∩ B ∩C ) = P (A|B ∩C )P (B |C )P (C ).
P (A) . P (A) + P (B )
39
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 40, global #74)
i
i
40
Inferência Estatística 1.39 Um par de eventos A e B não pode ser, ao mesmo tempo, mutuamente exclusivo e independente. Prove que se P (A) > 0 e P (B ) > 0, então: a. Se A e B são mutuamente exclusivos, eles não podem ser independentes. b. Se A e B são independentes, eles não podem ser mutuamente exclusivos. 1.40 Conclua a prova do Teorema 1.3.9 comprovando as partes (b) e (c). 1.41 Como no Exemplo 1.3.6, considere os sinais de telégrafo “ponto” e “traço” enviados na proporção de 3:4, onde transmissões erráticas fazem um ponto ser transmitido como um traço com probabilidade 14 , e um traço ser transmitido como um ponto com probabilidade 13 . a. Se for recebido um traço, qual é a probabilidade de que realmente tenha sido enviado um traço? b. Assumindo a independência entre sinais, se a mensagem ponto–ponto foi recebida, qual é a distribuição de probabilidade das quatro possíveis mensagens que poderiam ter sido enviadas? 1.42 A identidade de inclusão-exclusão em Itens Diversos 1.8.1 recebe este nome pelo fato de que ela foi provada pelo método de inclusão e exclusão (Feller, 1968, Seção IV.1). Aqui, vamos entrar em detalhes. A probabilidade P (∪ni=1 A i ) é a soma das probabilidades de todos os pontos amostrais que estão contidos em, pelo menos, um dos A i s. O método de inclusão e exclusão é uma receita para a contagem desses pontos. a. Digamos que E k denote o conjunto de todos os pontos amostrais que estão contidos em P exatamente k dos eventos A 1 , A 2 , . . . , A n . Mostre que P (∪ni=1 A i ) = ni=1 P (E i ). b. Sem perder a generalidade, assuma que E k está contido em A 1 , A 2 , . . . , A k . Mostre que P (E k ) ¡ ¢ ¡ ¢ aparece k vezes na soma P 1 , k2 vezes na soma P 2 , k3 vezes na soma P 3 etc. c. Mostre que à ! à ! à ! k k k k− + −···± = 1. 2 3 k (Veja o Exercício 1.27.) P d. Mostre que as partes (a) − (c) implicam ni=1 P (E i ) = P 1 − P 2 = · · · ± P n , estabelecendo a identidade de inclusão-exclusão. 1.43 Para a identidade de inclusão-exclusão em Itens Diversos 1.8.1: a. Derive a Desigualdade de Boole e a de Bonferroni, a partir da identidade de inclusão-exclusão. b. Mostre que o P i satisfaz P i ≥ P j se i ≤ j e que a sequência de limites em Itens Diversos 1.8.1 aumenta, à medida que o número de termos aumenta. c. Geralmente, à medida que aumenta o número de termos no limite, o limite se torna mais útil. Contudo, Schwager (1984) adverte que existem alguns casos em que não ocorre grande melhoria, em particular se os A i s estiverem altamente correlacionados. Examine o que acontece à sequência de limites, em extremo caso, quando A i = A para cada i . (Veja Worsley, 1982, e a correspondência de Worsley, 1985 e Schwager, 1985.) 1.44 Testes padronizados apresentam uma interessante aplicação da teoria da probabilidade. Suponha, primeiramente, que um teste consiste em 20 questões com respostas de múltipla escolha, cada uma delas com 4 possíveis respostas. Se o aluno tentar adivinhar as respostas em cada questão, então a aplicação do exame pode ser modelada como uma sequência de 20 eventos independentes. Encontre a probabilidade de que o aluno responda corretamente, pelo menos, 10 questões, levando em conta que ele está adivinhando as respostas. 1.45 Mostre que a função de probabilidade induzida definida em (1.4.1) especifica uma função de probabilidade legítima, no sentido de que satisfaz os Axiomas de Kolmogorov. 1.46 Sete bolas são distribuídas aleatoriamente em sete células. Digamos que X i = o número de células contendo exatamente i bolas. Qual é a distribuição de probabilidade de X 3 ? (Isto é, encontre P (X 3 = x) para cada possível x .)
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 41, global #75)
i
i
Teoria da probabilidade 1.47 Prove que as seguintes funções são fdas. a. 12 + π1 tg−1 (x), x ∈ (−∞,∞) b. (1 + e −x )−1 , x ∈ (−∞,∞) −x c. e −e , x ∈ (−∞,∞) d. 1 − e −x , x ∈ (0,∞) e. a função definida em (1.5.6) 1.48 Prove a condição necessária do Teorema 1.5.3. 1.49 Uma fda F X é estocasticamente maior que uma fda F Y se F X (t ) ≤ F Y (t ) para todo t e F X (t ) < F Y (t ) para algum t . Prove que se X ∼ F X e Y ∼ F Y , então P (X > t ) ≥ P (Y > t )
para cada t
e P (X > t ) > P (Y > t )
para algum t ,
ou seja, X tende a ser maior que Y . 1.50 Verifique em (1.5.4) a fórmula para a soma parcial das séries geométricas. 1.51 Uma loja de aparelhos eletrodomésticos recebe uma remessa de 30 fornos de micro-ondas, cinco dos quais estão com defeito (fato conhecido pelo gerente da loja). O gerente seleciona aleatoriamente quatro fornos, sem reposição, e os testa para verificar se estão com defeito. Digamos que X = número de fornos com defeito encontrados. Calcule a fp e a fda de X e represente a fda em gráfico. 1.52 Digamos que X seja a variável aleatória contínua com fdp f (x) e fda F (x). Para um número fixo x 0 , defina a função ( f (x)/[1 − F (x 0 )] x ≥ x 0 g (x) = 0 x < x0 . Prove que g (x) é uma fdp. (Assuma que F (x 0 ) < 1.) 1.53 Todo ano, um determinado rio transborda. Suponha que o marcador de limite mínimo de água esteja definido em 1 e que o marcador de limite máximo de água Y tenha a função de distribuição 1 F Y (y) = P (Y ≤ y) = 1 − 2 , 1 ≤ y < ∞. y a. Verifique se F Y (y) é uma fda. b. Encontre f Y (y), a fdp de Y . c. Se o marcador de limite mínimo de água for redefinido para 0 e utilizarmos uma unidade 1 de medida que seja 10 da que foi dada anteriormente, o marcador de limite máximo passa a ser Z = 10(Y − 1). Encontre F Z (z). 1.54 Para cada um dos itens a seguir, determine o valor de c que torna f (x) uma fdp. a. f (x) = c sen x , 0 < x < π/2 b. f (x) = ce −|x| , −∞ < x < ∞ 1.55 Um dispositivo eletrônico tem um período de vida útil denotado por T . O dispositivo tem valor V = 5 se apresentar defeito antes do tempo t = 3; do contrário, tem valor V = 2T . Encontre a fda de V , se T tem fdp 1 −t /(1,5) f T (t ) = e , t > 0. 1,5
41
I NFERÊNCIA E STATÍSTICA — Prova 4-H — 20/10/2010 — Maluhy&Co. — página (local 42, global #76)
i
i
42
Inferência Estatística
1.8 1.8.1
ITENS DIVERSOS Bonferroni e além
O limite de Bonferroni de (1.2.10), ou a Desigualdade de Boole (Teorema 1.2.11), fornece limites simples para a probabilidade de uma interseção ou união. Esses limites podem se tornar cada vez mais precisos com a seguinte expansão: Para conjuntos A 1 , A 2 , . . . A n , criamos um novo conjunto de interseções aninhadas, como segue. Digamos que n X P1 = P (A i ) i =1 n X
P2 =
P (A i ∩ A j )
1≤i < j ≤n n X
P3 =
P (A i ∩ A j ∩ A k )
1≤i < j <k≤n
.. . P n = P (A 1 ∩ A 2 ∩ · · · ∩ A n ).
Então, a identidade de inclusão-exclusão diz que P (A 1 ∪ A 2 ∪ · · · ∪ A n ) = P 1 − P 2 + P 3 − P 4 + · · · ± P n .
Além disso, os P i são ordenados, no sentido de que P i ≥ P j se i ≤ j , e temos a sequência de limites superior e inferior P 1 ≥ P (∪ni=1 A i ) ≥ P 1 − P 2 P 1 − P 2 + P 3 ≥ P (∪ni=1 A i ) ≥ P 1 − P 2 + P 3 − P 4
.. . Veja os Exercícios 1.42 e 1.43 para saber detalhes. Esses limites se tornam cada vez mais estritos à medida que o número de termos aumenta, e eles oferecem um refinamento para os limites de Bonferroni originais. Aplicações desses limites incluem as aproximações das probabilidades de sequências (Karlin e Ost, 1988) e procedimentos de comparações múltiplas (Naiman e Wynn, 1992).
LO_inferenciaestatistica.pdf
1
04/05/16
10:06
GEORGE CASELLA|ROGER L.BERGER
Livro destinado a alunos de graduação e pós-graduação de cursos que ofereçam a disciplina inferência estatística e àqueles estudantes de outras áreas que contenham cursos introdutórios de estatística, mas que precisam de aprofundamento nos principais conceitos. Recomendado, também, para pesquisadores das várias áreas afins que necessitem de conhecimentos mais elaborados das técnicas estatísticas para a sua correta aplicação.
ISBN 13 978-85-221-0894-7 ISBN 10 85-221-0894-3
Para suas soluções de curso e aprendizado, visite www.cengage.com.br
9 788522 108947
INFERÊNCIA ESTATÍSTICA
Aplicações
Outras obras: Estatística aplicada à administração e economia – Tradução da 6ª edição norte-americana Dennis J. Sweeney, Thomas A. Williams e David R. Anderson
ROGER L.BERGER
O propósito da obra Inferência Estatística – tradução da 2ª edição norte-americana – é desenvolver a teoria estatística (fazendo diferenciação em relação à estatística matemática) a partir dos princípios da teoria da probabilidade. Desenvolvimento lógico, provas, ideias, temas etc. evoluem por meio de argumentos estatísticos, diferente do que acontece em outras obras de mesmo teor, que se baseiam em princípios puramente matemáticos. Os conceitos são apresentados com todo o rigor teórico e há uma série de referências bibliográficas para maiores elucidações. Esta 2ª edição ampliada traz inúmeros conceitos novos que somente são encontrados em artigos científicos, fato que valoriza ainda mais a sua tradução.
GEORGE CASELLA
INFERÊNCIA ESTATÍSTICA
Estatística para economistas – 4ª edição revista e ampliada Rodolfo Hoffmann Probabilidade e estatística para engenharia e ciências – Tradução da 8ª edição norte-americana Jay L. Devore
GEORGE CASELLA ROGER L.BERGER