Apostila estatistica cienc comp

Page 1

NOTAS DE AULA: ESTAT´ISTICA ´ BASICA Curso: Ciˆ encia da Computa¸ c˜ ao

Profs. Fl´ avio Bittencourt/Adriana Dias UNIFAL-MG / ALFENAS 2014



´ SUMARIO LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . ´ 1 SOMATORIO . . . . . . . . . . . . . . . . . . . . . . . ´ 1.1 Indices ou nota¸c˜ ao por ´ındices . . . . . . . . . . . . . 1.2 Nota¸c˜ ao de somat´ orio . . . . . . . . . . . . . . . . . . 1.3 Propriedades . . . . . . . . . . . . . . . . . . . . . . . 1.4 Somat´ orios mais usados na Estat´ıstica . . . . . . . . . 1.5 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . ˜ 2 INTRODUC ¸ AO . . . . . . . . . . . . . . . . . . . . . . ˜ 3 ALGUMAS DEFINIC ¸ OES . . . . . . . . . . . . . . . . 3.1 Vari´ avel . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Vari´ aveis qualitativas . . . . . . . . . . . . . . . . . 3.1.2 Vari´ aveis quantitativas . . . . . . . . . . . . . . . . . 3.1.3 Vari´ aveis independentes e dependentes . . . . . . . . 3.2 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Popula¸c˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Amostra . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Parˆ ametro . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Estimador . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Estimativa . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . 4 AMOSTRAGEM . . . . . . . . . . . . . . . . . . . . . 4.1 Importˆ ancia . . . . . . . . . . . . . . . . . . . . . . . 4.2 N´ umeros aleat´ orios . . . . . . . . . . . . . . . . . . . . 4.3 Tipos de amostragem . . . . . . . . . . . . . . . . . . 4.3.1 Amostragem n˜ ao probabil´ıstica . . . . . . . . . . . . 4.3.2 Amostragem probabil´ıstica . . . . . . . . . . . . . . 4.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . 5 ESTAT´ISTICA DESCRITIVA . . . . . . . . . . . . . . 5.1 Apresenta¸c˜ ao dos dados . . . . . . . . . . . . . . . . . 5.1.1 Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Constru¸c˜ ao de tabelas de distribui¸c˜ ao de frequˆencias 5.1.3 Tipos de distribui¸c˜ ao de frequˆencias . . . . . . . . . 5.1.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . 5.1.5 Gr´ aficos . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Medidas Estat´ısticas . . . . . . . . . . . . . . . . . . . 5.2.1 Medidas de Tendˆencia Central . . . . . . . . . . . . 5.2.2 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 Medidas Separatrizes . . . . . . . . . . . . . . . . . 5.2.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . 5.2.5 Medidas de Variabilidade (Dispers˜ ao) . . . . . . . . 5.2.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . 6 PROBABILIDADE . . . . . . . . . . . . . . . . . . . . 6.1 Defini¸c˜ oes . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Experimento . . . . . . . . . . . . . . . . . . . . . . 6.1.2 Experimento determin´ıstico . . . . . . . . . . . . . . 6.1.3 Experimento aleat´ orio . . . . . . . . . . . . . . . . . 6.1.4 Espa¸co amostral . . . . . . . . . . . . . . . . . . . . 6.1.5 Evento . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Probabilidade a priori . . . . . . . . . . . . . . . . . 6.2.2 Probabilidade a posteriori . . . . . . . . . . . . . . . 6.2.3 Importante saber! . . . . . . . . . . . . . . . . . . . 6.3 Probabilidade condicional . . . . . . . . . . . . . . . . 6.3.1 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

i ii 1 1 1 1 2 2 3 3 3 3 4 4 5 5 5 5 5 6 6 7 8 8 10 10 10 16 18 18 18 20 24 26 26 31 31 31 37 38 41 42 46 47 47 47 47 48 48 48 49 49 50 51 51 52


6.4 Regra do produto e independˆencia de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5 Independˆencia de trˆes ou mais eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Ensaios de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.1 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.2 Exerc´ıcios extras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ DE PROBABILIDADE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 DISTRIBUIC ¸ AO 7.1 Vari´ avel aleat´ oria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Distribui¸c˜ ao de probabilidade ou fun¸ca˜o de probabilidade . . . . . . . . . . . . . . . . . . . . . 7.2.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 M´edia e variˆ ancia de uma vari´ avel aleat´oria discreta . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Distribui¸c˜ ao binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.4 Distribui¸c˜ ao Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.5 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Distribui¸c˜ ao normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 C´ alculo de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Condi¸co˜es para que uma fun¸c˜ ao seja fun¸c˜ao densidade de probabilidade . . . . . . . . . . . . 7.3.3 A distribui¸c˜ ao normal: informa¸c˜ oes adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.4 C´ alculo de probabilidades de vari´ aveis normais . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.5 Distribui¸c˜ ao normal padronizada ou distribui¸c˜ao normal padr˜ao . . . . . . . . . . . . . . . . 7.3.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ 8 TEORIA DA ESTIMAC ¸ AO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Distribui¸c˜ ao de amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Distribui¸c˜ ao amostral das m´edias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.2 Teorema do Limite Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.3 Distribui¸c˜ ao amostral das propor¸c˜ oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Estima¸c˜ ao pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Estima¸c˜ ao intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1 Intervalo de confian¸ca para a m´edia µ de uma popula¸c˜ao normal com variˆancia populacional σ 2 conhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Intervalo de confian¸ca para a m´edia µ de uma popula¸c˜ao normal com variˆancia populacional σ 2 desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.3 Intervalo de confian¸ca para uma propor¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.4 Determina¸c˜ ao do tamanho amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.5 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ 9 TEORIA DA DECISAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1 Introdu¸ca˜o . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Erros envolvidos num teste de hip´ otese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Mecˆ anica operacional dos testes de hip´oteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4 Teste de hip´ oteses para uma m´edia de uma popula¸c˜ao normal quando a variˆancia populacional for desconhecida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.1 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5 Teste de hip´ oteses para propor¸c˜ oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5.1 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.6 Teste de hip´ oteses para compara¸c˜ ao das variˆancias de duas popula¸c˜oes normais . . . . . . . . . 9.7 Teste de hip´ oteses para duas m´edias de popula¸c˜oes normais com variˆancias populacionais desconhecidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.7.1 Testes de hip´ oteses para duas m´edias, sendo σ12 = σ22 = σ 2 . . . . . . . . . . . . . . . . . . . . 9.7.2 Testes de hip´ oteses para duas m´edias, sendo σ12 6= σ22 . . . . . . . . . . . . . . . . . . . . . . . 9.7.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10TESTES QUI-QUADRADO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1Teste de Aderˆencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2Teste de Independˆencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3Teste de Homogeneidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.1Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES . . . . . . . . . . . . . . . . . . 11CORRELAC ¸ AO 11.1Diagrama de dispers˜ ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53 55 55 57 58 59 59 60 61 61 62 63 64 65 66 67 67 67 67 69 71 71 71 72 73 74 74 75 75 75 78 79 80 82 83 83 83 84 84 85 86 87 88 89 89 90 91 92 93 94 96 98 99 99


11.2Coeficiente de Correla¸c˜ ao Linear . . . . . . . . . 11.2.1Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . 11.3Regress˜ ao Linear Simples . . . . . . . . . . . . . 11.3.1Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . 12Tabelas de distribui¸c˜ oes de probabilidade te´oricas

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

99 102 103 106 108



LISTA DE TABELAS 2 3 4 5 6 8 9 10 11 12 13 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

T´ abua de n´ umeros aleat´ orios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Estratifica¸c˜ ao das 500 pessoas em observa¸c˜ao no hospital HS . . . . . . . . . . . . . . . . 14 Estratifica¸c˜ ao das 500 pessoas em observa¸c˜ao no hospital HS e os respectivos tamanhos dos estratos e tamanhos de amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Estratifica¸c˜ ao das 1000 pessoas em observa¸c˜ao no hospital HS . . . . . . . . . . . . . . . . 15 Estratifica¸c˜ ao das 1000 pessoas em observa¸c˜ao no hospital HS e os respectivos tamanhos dos estratos e tamanhos de amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 N´ umero de notifica¸c˜ oes de ´ obitos ao SIM, por doen¸cas end´ocrinas nutricionais e metab´olicas. Brasil, 2005 a 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Interna¸c˜ oes por acidente de trˆ ansito segundo a Unidade de Federa¸c˜ao, faixa et´aria de 25 a 29 anos, nov-2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Notifica¸c˜ oes de ´ obitos ao SIM. Brasil, 2011* . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Notifica¸c˜ oes de ´ obitos ao SIM. Brasil, 2007 a 2011* . . . . . . . . . . . . . . . . . . . . . . 20 Avalia¸c˜ ao do Congresso de Homeopatia, Alfenas-MG, 2014 . . . . . . . . . . . . . . . . . 21 N´ umero de filhos de 50 casais entrevistados numa fila de um PSF, Cidade Gama, abril-maio de 2010* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 N´ umero de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 Valores relativos de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 N´ umero de cartas entregues, diariamente, em um edif´ıcio residencial, durante 60 dias . . . 32 N´ umero de cartas entregues, diariamente, em um edif´ıcio residencial, durante 60 dias e o ponto m´edio das classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 C´ alculos auxiliares: compara¸c˜ ao entre n/2 e f ac e localiza¸c˜ao da classe mediana . . . . . 36 C´ alculos auxiliares: localiza¸c˜ ao da classe do P50 . . . . . . . . . . . . . . . . . . . . . . . . 40 C´ alculos auxiliares: localiza¸c˜ ao da classe do P25 . . . . . . . . . . . . . . . . . . . . . . . . 40 C´ alculos auxiliares: localiza¸c˜ ao da classe do P75 . . . . . . . . . . . . . . . . . . . . . . . . 41 Notas dos trˆes alunos em quatro provas de determinada disciplina e suas respectivas m´edias 45 N´ umero de cartas entregues, diariamente, em um edif´ıcio residencial, durante 60 dias e c´ alculos preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Pacientes com diabetes em Minas Gerais, segundo o sexo, no per´ıodo de janeiro a junho de 2009 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Todas as amostras e m´edias amostrais de tamanho n = 2 . . . . . . . . . . . . . . . . . . 72 Todas as k amostras de tamanho n e propor¸c˜oes pˆi . . . . . . . . . . . . . . . . . . . . . . 74 Probabilidades (α) da distribui¸c˜ ao normal padronizada . . . . . . . . . . . . . . . . . . . . 108 Valores do quantil t segundo os graus de liberdade (gl) e probabilidades α . . . . . . . . . 109 Valores do quantil χ2 segundo os graus de liberdade (gl) e probabilidades α . . . . . . . . 110 Valores do quantil F segundo os graus de liberdade do numerador (v1 ) e graus de liberdade do denominador (v2 ) e probabilidade 5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

i


LISTA DE FIGURAS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52

ii

Classifica¸c˜ ao das vari´ aveis . . . . . . . . . . . . . . Rela¸c˜ ao entre vari´ aveis . . . . . . . . . . . . . . . . Dados parciais da pesquisa da empresa . . . . . . . Esquematiza¸c˜ ao do processo de amostragem . . . . N˜ ao seria melhor uma amostra? . . . . . . . . . . . Pastas com os nomes das crian¸cas . . . . . . . . . . Esquematiza¸c˜ ao da amostragem por conglomerado Esquematiza¸c˜ ao da amostragem estratificada . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

. . . . . . . .

N´ umero de notifica¸co ˜es de o ´bitos ao SIM, por doen¸cas end´ ocrinas nutricionais e metab´ olicas. Brasil, 2005 a 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Interna¸co ˜es por acidente de trˆ ansito segundo a Unidade de Federa¸ca ˜o, faixa et´ aria de 25 a 29 anos, nov-2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Notifi¸co ˜es de o ´bitos ao SIM. Brasil, 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Notifi¸co ˜es de o ´bitos ao SIM. Brasil, 2007 a 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . Interna¸co ˜es por acidente de tr˜ ansito segundo a Unidade de Federa¸ca ˜o, faixa et´ aria de 25 a 29 anos, nov-2013 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . N´ umero de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010 N´ umero de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010

Tipos de frequˆencias . . . . . . . . . . Rela¸c˜ ao entre m´edia, mediana e moda Equivalˆencia das medidas separatrizes Boxplot: modelo e nomes das partes . . . Boxplot: simetrias . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Boxplot: N´ umero de filhos por casal: Amostra A e Amostra B . . . . . . Distribui¸c˜ oes normais com diferentes valores para µ e σ . . . . . . . Exemplo de P (a < X < b) . . . . . . . . . . . . . . . . . . . . . . . Curva normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P (X > 190) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P (Z > 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Valor tabelado para P (Z > 2): ´ area sob a curva para Z > 2 . . . . . P (−1,6 < Z < 0,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . P (Z > 0,2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P (Z < 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P (−1,6 < Z < 0,2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . P (0 < Z < 1,2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gr´ afico dos valores populacionais . . . . . . . . . . . . . . . . . . . . Gr´ afico da distribui¸c˜ ao das m´edias . . . . . . . . . . . . . . . . . . . Distribui¸c˜ ao de probabilidade da popula¸c˜ao e distribui¸c˜oes amostrais Probabilidade da ´ area compreendida entre −1,96 e 1,96 e das caudas Esquematiza¸c˜ ao dos intervalos de confian¸ca para µ e p . . . . . . . . Regi˜ oes cr´ıticas conforme H1 : µ 6= µ0 ; H1 : µ > µ0 e H1 : µ < µ0 . . Regi˜ oes cr´ıticas conforme H1 : p 6= p0 ; H1 : p > p0 e H1 : p < p0 . . . 2 2 Regi˜ ao cr´ıtica conforme H1 : σM > σm . . . . . . . . . . . . . . . . . Regi˜ ao cr´ıtica conforme H1 : µ1 − µ2 6= 0 . . . . . . . . . . . . . . . . Regi˜ ao cr´ıtica conforme H1 : µ1 − µ2 6= 0 . . . . . . . . . . . . . . . . Regi˜ ao cr´ıtica conforme H1 . . . . . . . . . . . . . . . . . . . . . . . Regi˜ ao cr´ıtica conforme H1 . . . . . . . . . . . . . . . . . . . . . . . Regi˜ ao cr´ıtica conforme H1 . . . . . . . . . . . . . . . . . . . . . . . Conjunto de dados de ´Iris de Fisher . . . . . . . . . . . . . . . . . . Tipos de relacionamentos entre X e Y . . . . . . . . . . . . . . . . . Diagrama de dispers˜ ao: n´ıvel de colesterol e n´ıvel de triglicer´ıdeos . Gr´ afico das vari´ aveis X e Y . . . . . . . . . . . . . . . . . . . . . . . Esquematiza¸c˜ ao dos erros: ei = yi − yˆi . . . . . . . . . . . . . . . . . Diagrama de dispers˜ ao e gr´ afico da equa¸c˜ao ajustada . . . . . . . . . Gr´ aficos referentes ao exerc´ıcio . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . para diferentes n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 4 6 8 8 12 13 14 27 27 28 28 29 29 30 30 37 38 42 43 43 66 66 67 67 68 68 68 69 69 69 69 72 72 74 76 80 85 87 88 89 91 93 95 96 99 100 101 103 104 105 106


´ 1 SOMATORIO

Estat´ıstica B´ asica

1 1.1

´ SOMATORIO

´ Indices ou nota¸ c˜ ao por ´ındices

O s´ımbolo xi (leia-se x ´ındice i) representa qualquer um dos n valores, x1 , x2 , x3 , . . . , xn assumidos pela vari´ avel X, na amostra ou no conjunto de dados. Evidentemente pode ser usada qualquer outra letra al´em de i. 1.2

Nota¸ c˜ ao de somat´ orio O s´ımbolo

n X

xi ´e usado para representar a soma de todos os valores de xi desde i = 1 at´e

i=1

i = n, ou seja: n X

xi = x1 + x2 + · · · + xn

i=1

Exemplo: Considere a vari´ avel X = {1, 0, −1, 2, 1}, cada valor (ou elemento) de X corresponde, respectivamente, a x1 , x2 , x3 , x4 , x5 . Alguns somat´orios podem ser calculados: 3 X a) xi = x1 + x2 + x3 = 1 + 0 + (−1) = 0 i=1

b) c) d)

5 X i=1 5 X

xi = x1 + x2 + x3 + x4 + x5 = 1 + 0 + (−1) + 2 + 1 = 3 xi = x3 + x4 + x5 = −1 + 2 + 1 = 2

i=3 5 X

xi = x1 + x2 + x5 = 1 + 0 + 1 = 2

i=1 i6=3, 4

1.3

Propriedades Sejam: a, b e k constantes; X e Y vari´aveis e xi e yi os valores que as vari´aveis X e Y assumem,

ent˜ ao: (P1) Somat´ orio de uma constante vezes uma vari´avel ´e igual `a constante vezes o somat´orio da vari´avel: n X

axi = ax1 + ax2 + ax3 + ... + axn = a

i=1

n X

xi

i=1

(P2) Somat´ orio de uma constante ´e igual ao n´ umero de termos vezes a constante: n X i=1 n X i=a

k = k + k + k + ... + k + k = n · k {z } | (n−1+1 ) vezes

k = k + k + k + . . . + k + k = (n − a + 1) · k | {z } (n−a+1 ) vezes

(P3) Somat´ orio de uma soma ´e igual ` a soma dos somat´orios: n X

(axi ± byi ) = a

i=1

n X

xi ± b

i=1

n X

yi

i=1

(P4) Somat´ orios de um produto de vari´ aveis ´e igual ao produto dos somat´orios destas vari´aveis: n X m X i=1 j=1

UNIFAL-MG/Alfenas

xi yj =

n X i=1

xi ×

m X

yj

j=1

Profs. Fl´ avio Bittencourt/Adriana Dias

1


´ 1 SOMATORIO

Estat´ıstica B´ asica

´ importante lembrar que: E n X n X

xi yi 6=

i=1

n X

xi ×

i=1

n X

n X

yi

i=1

i=1

xi yi

6=

i=1 n X

xi

n X i=1

yi

!2 xi

6=

n X

x2i

i=1

i=1

1.4

Somat´ orios mais usados na Estat´ıstica n X i. Soma simples: xi = x1 + x2 + ... + xn i=1

ii. Soma de quadrados:

n X

x2i = x21 + x22 + ... + x2n

i=1 n X

iii. Quadrado da soma:

!2 xi

= (x1 + x2 + ... + xn )

2

i=1

iv. Soma de produtos:

n X

xi yi = x1 y1 + x2 y2 + ... + xn yn

i=1

v. Produto da soma:

n X i=1

xi

n X

yi = (x1 + x2 + ... + xn ) (y1 + y2 + ... + yn )

i=1

Observa¸ c˜ ao: algumas vezes omite-se os limites do somat´orio, quando isso acontecer deve-se considerar a soma de todos os elementos, desde i = 1 at´e i = n: X

x=

n X

xi

i=1

1.5

Exerc´ıcios

1. Indicar, por meio da nota¸c˜ ao de somat´ orio, cada uma das express˜oes seguintes: a) x21 + x22 + x23 + ... + x210 b) (x1 + y1 ) + (x2 + y2 ) + ... + (x8 + y8 ) c) f1 x31 + f2 x32 + f3 x33 + ... + f20 x320 2 d) (y12 − 1)2 + (y22 − 1)2 + . . . + (y12 − 1)2 2 3 e) (x1 − 1) + (x2 − 2) + (x3 − 3) + . . . + (xn − n)n 2. Desenvolver os termos de cada uma das seguintes somas: a) b)

6 X i=1 4 X

xi (yi − 3)2

c) d)

N X i=1 n X

a b

e) f)

i=a

i=1

5 X k=1 3 X

fk xk (xj − a)

j=1

3. As vari´ aveis, X e Y , assumem os valores: x1 = 2; x2 = 4; x3 = −5; x4 = −8 e y1 = −3; y2 = −8; y3 = 10; y4 = 6, respectivamente. Calcular: P P P a) P x d) P x2 g) P xy 2 b) P y e) P y 2P h) (x + y)(x − y) c) xy f) x y 4. Dados os valores das vari´ aveis: X = {2, 4, 4, 3, 2}, Y = {1, 2, 3, 6, 7}, obtenha: 5 4 5 P X X 2 a) xi c) 4xi e) (3xi + 2yi ) b)

i=1 5 X i=1

2

yi

d)

i=1 5 X

i=1

xi yi

f)

i=1

Profs. Fl´ avio Bittencourt/Adriana Dias

4 X i=2

xi yi +

5 X

yi2

i=1

UNIFAL-MG/Alfenas


˜ 2 INTRODUC ¸ AO

Estat´ıstica B´ asica

5. Na Estat´ıstica usa-se com frequˆencia calcular a m´edia e a variˆanciaamostral, representadas na forma !2 n n X X  n xi  xi X  1   i=1 i=1 x2i − de somat´ orios por: x ¯ = e s2 =  , respectivamente, sendo n uma  n n − 1  i=1 n   constante que representa o n´ umero de elementos (ou dados, ou observa¸c˜oes) de um conjunto qualquer ou de uma vari´ avel. Considere os valores assumidos por uma vari´avel X qualquer: X = {2, 4, 5, 6, 1, 6}; calcule a m´edia e a variˆ ancia. n X 6. a) Use os valores da vari´ avel X do exerc´ıcio anterior para demonstrar que (xi − x ¯) = 0. i=1

b) Use as propriedades de somat´ orio, lembre-se que x ¯ ´e uma constante, para demonstrar algebricamente n X que (xi − x ¯) = 0. i=1

2

˜ INTRODUC ¸ AO

A Estat´ıstica como ciˆencia somente se estruturou no s´eculo passado, sendo uma ferramenta indispens´ avel na vida moderna. Hoje, cada vez mais pessoas encontram-se expostas a ela em maior ou menor intensidade. ´ a ciˆencia que se ocupa da coleta, da organiza¸c˜ao, da descri¸c˜ao, da an´alise e da interpreta¸c˜ E ao de dados: a) no plural (estat´ısticas), indica qualquer cole¸c˜ao consistente de dados num´ericos reunidos com a finalidade de fornecer informa¸c˜ oes acerca de uma atividade qualquer. Por exemplo, estat´ısticas demogr´aficas referem-se a dados num´ericos sobre nascimentos, falecimentos, matrimˆonios, desquites etc. b) no singular (estat´ıstica), indica um corpo de t´ecnicas, ou ainda uma metodologia desenvolvida para a coleta, a classifica¸c˜ ao, a apresenta¸c˜ ao, a an´alise, a interpreta¸c˜ao de dados e a utiliza¸c˜ao desses dados para a tomada de decis˜ oes. 3 3.1

˜ ALGUMAS DEFINIC ¸ OES

Vari´ avel

´ por meio das vari´aveis que se As vari´ aveis s˜ ao as caracter´ısticas pesquisadas ou registradas. E torna poss´ıvel descrever o fenˆ omeno. As vari´aveis s˜ao caracter´ısticas que podem ser observadas ou medidas em cada elemento pesquisado (seja por censo ou por amostragem, levantamento ou experimento), sob as mesmas condi¸c˜ oes. Para cada vari´ avel, para cada elemento pesquisado, em um dado momento, h´a apenas um resultado poss´ıvel. As vari´ aveis podem ser basicamente classificadas de acordo com o seu n´ıvel de mensura¸c˜ao (o quanto de informa¸c˜ ao cada vari´ avel apresenta) e seu n´ıvel de manipula¸c˜ao (como uma vari´avel relaciona-se com as outras no estudo). 3.1.1

Vari´ aveis qualitativas

Tamb´em denominadas de vari´ aveis categ´oricas, s˜ao aquelas cujas realiza¸c˜oes s˜ao atributos (categorias) do elemento pesquisado, como sexo, grau de instru¸c˜ao, esp´ecie. Estas podem ser nominais ou ordinais. As vari´ aveis nominais podem ser medidas apenas em termos de quais itens pertencem as diferentes categorias, mas n˜ ao pode quantificar nem mesmo ordenar tais categorias. Por exemplo, pode se dizer que dois indiv´ıduos s˜ ao diferentes em termos da vari´avel A (sexo, por exemplo), mas n˜ao se pode dizer qual deles “tem mais” da qualidade representada pela vari´avel. Exemplos t´ıpicos de vari´aveis nominais s˜ ao: sexo, naturalidade, etnia etc. As vari´ aveis ordinais permitem ordenar os itens medidos em termos de qual tem menos e qual tem mais da qualidade representada pela vari´avel, mas ainda n˜ao permitem que se diga “o quanto mais”. Um exemplo t´ıpico de uma vari´ avel ordinal ´e o status s´ocio-econˆomico das fam´ılias residentes em uma localidade: sabe-se que m´edia-alta ´e mais “alta” do que m´edia, mas n˜ao se pode dizer, por exemplo, que ´e 20% mais alta. A pr´ opria distin¸c˜ ao entre mensura¸c˜ao nominal, ordinal e intervalar representa um bom exemplo de uma vari´ avel ordinal. Pode-se dizer que uma medida nominal provˆe menos informa¸c˜ao do que uma medida ordinal, mas n˜ ao se pode dizer “quanto menos” ou como esta diferen¸ca se compara ` a UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

3


˜ 3 ALGUMAS DEFINIC ¸ OES

Estat´ıstica B´ asica

diferen¸ca entre mensura¸c˜ ao ordinal e quantitativa. 3.1.2

Vari´ aveis quantitativas

S˜ ao aquelas cujas realiza¸c˜ oes s˜ ao n´ umeros resultantes de contagem ou mensura¸c˜ao, como n´ umero de filhos, n´ umero de visitantes, velocidade em km/h, peso, altura etc. As vari´aveis quantitativas s˜ ao discretas ou cont´ınuas. As vari´ aveis quantitativas discretas s˜ao aquelas que podem assumir apenas alguns valores num´ericos que geralmente podem ser listados (n´ umero de filhos, n´ umero de acidentes). As vari´aveis quantitativas cont´ınuas s˜ ao aquelas que podem assumir qualquer valor em um intervalo (velocidade, peso, altura). Muitos pesquisadores preferem as vari´aveis quantitativas por acharem que estas contˆem mais informa¸c˜ oes do que as qualitativas. Observe os seguintes exemplos: quando a vari´avel distˆancia de uma localidade ´e descrita em termos de “longe” e “perto”, sabe-se que longe ´e mais distante que perto, mas n˜ ao se tem id´eia de qu˜ ao mais distante; se, contudo, descreve-se a distˆancia de forma num´erica, medida em metros, e uma localidade dista de um ponto de referˆencia 600 metros e outra dista 400, n˜ao s´o se sabe que a segunda ´e mais perto do que a primeira, mas s˜ao 200 metros mais perto. ´ importante ressaltar que a forma como a vari´avel est´a sendo medida definir´a o seu n´ıvel de E mensura¸c˜ ao. Por exemplo, a vari´ avel velocidade de um carro; se definirmos velocidade como resultado de uma medi¸c˜ ao por meio de radar resultando em um valor em km/h, trata-se de uma vari´avel quantitativa cont´ınua; se, por´em, definirmos a velocidade como resultado de uma medi¸c˜ao em que algu´em declara a velocidade como “baixa”, “m´edia” ou “alta”, ela passa ser qualitativa ordinal. Esquematicamente a classifica¸c˜ ao das vari´aveis segundo o n´ıvel de mensura¸c˜ao pode ser visualizada na Figura 1.

FIGURA 1 Classifica¸c˜ao das vari´aveis 3.1.3

Vari´ aveis independentes e dependentes

Uma outra forma de classificar as vari´aveis refere-se ao n´ıvel de manipula¸c˜ao: vari´aveis independentes e dependentes, Figura 2.

FIGURA 2 Rela¸c˜ao entre vari´aveis As vari´ avies independentes s˜ ao aquelas que s˜ao manipuladas, enquanto que as dependentes s˜ ao apenas medidas ou registradas (como manipula¸c˜ao das vari´aveis independentes). Esta distin¸c˜ao confunde muitas pessoas que dizem que “todas as vari´aveis dependem de alguma coisa”. Entretanto, uma vez que se esteja acostumado a esta distin¸c˜ ao ela se torna indispens´avel. 4

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 3 ALGUMAS DEFINIC ¸ OES

Estat´ıstica B´ asica

As vari´ aveis independentes s˜ ao aquelas que podem influenciar os valores das vari´aveis dependentes. Somente a realiza¸c˜ ao do estudo vai permitir verificar se h´a realmente tal influˆencia e, somente, poderemos afirmar que a vari´ avel independente ´e a causa da vari´avel dependente assumir determinado resultado se o estudo for um experimento (pesquisa experimental). Os termos vari´ avel dependente e independente aplicam-se principalmente `a pesquisa experimental, onde algumas vari´ aveis s˜ ao manipuladas, e neste sentido s˜ao “independentes” dos padr˜oes de rea¸c˜ ao inicial, inten¸c˜ oes e caracter´ısticas das unidades experimentais. Espera-se que outras vari´aveis sejam “dependentes” da manipula¸c˜ ao ou das condi¸c˜ oes experimentais. Ou seja, elas dependem “do que as unidades experimentais far˜ ao” em resposta. Exemplo: Quando vocˆe vai ao restaurante o valor a ser pago ´e dependente da quantidade de comida. Vocˆe pode controlar a quantidade de comida no prato, mas o valor depender´a desta quantidade. Ao se estudar o n´ umero de suic´ıdios ocorridos durante os anos 2007 a 2012 numa determinada cidade, vocˆe manipula a vari´ avel ano (2007 a 2012), mas o n´ umero de suic´ıdios ser´a registrado conforme o ano. 3.2

Dados

S˜ ao os valores ou fenˆ omenos obtidos na mensura¸c˜ao ou observa¸c˜oes de alguma vari´avel em estudo. Logo, os dados podem ser qualitativos (nominais ou ordinais) ou quantitativos (discretos ou cont´ınuos) e independentes ou dependentes. Por exemplo, se a vari´avel estudada for sexo de indiv´ıduos que visitam um santu´ ario, os dados s˜ ao, masculino, masculino, feminino, feminino etc. Outro exemplo: considerando que a vari´avel estudada seja n´ umero de filhos de um grupo de 20 casais, as respostas obtidas, 0, 2, 3, 1, 2, 0, ... s˜ao os dados, e neste caso, os dados s˜ao discretos. Considerando altura dos estudantes desta sala de aula, os dados obtidos s˜ao denominados cont´ınuos, pois alguns valores podem ser: 1,59m, 1,75m, 1,80m etc. 3.3

Popula¸ c˜ ao

Os dados s˜ ao coletados para estudar uma ou mais caracter´ısticas de uma popula¸c˜ao de interesse. Popula¸c˜ ao ´e o conjunto de medidas da(s) caracter´ıstica(s) de interesse em todos os elementos que a(s) apresenta(m). Se, por exemplo, estamos avaliando as opini˜oes de eleitores sobre os candidatos a presidente, a popula¸c˜ ao da pesquisa seria constitu´ıda pelas opini˜oes declaradas pelos eleitores em quest˜ao. 3.4

Amostra

Uma amostra da popula¸c˜ ao ´e um subconjunto finito e representativo da popula¸c˜ao. Por exemplo, se a popula¸c˜ ao da pesquisa for constitu´ıda pelas opini˜oes declaradas pelos eleitores, uma amostra seria parte dessas declara¸c˜ oes. Quer dizer que ´e necess´ario amostrar um grupo de eleitores e a partir deles constituir uma amostra das declara¸c˜ oes das suas opini˜oes. 3.5

Parˆ ametro ´ uma constante que caracteriza uma popula¸c˜ao. S˜ao exemplos de parˆametros: E • µ: m´edia populacional • σ 2 : variˆ ancia populacional • σ: desvio padr˜ ao populacional • p: propor¸c˜ ao populacional • etc.

3.6

Estimador

´ uma express˜ E ao alg´ebrica (f´ ormula) utilizada para obter um valor aproximado de um parˆametro. S˜ ao exemplos de estimadores: n X

• x ¯=

i=1

n

xi : m´edia amostral

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

5


˜ 3 ALGUMAS DEFINIC ¸ OES

Estat´ıstica B´ asica

n X

 n 1  X 2 x − • s =  n − 1  i=1 i  2

• s= • pˆ =

!2  xi

i=1

n

   : variˆancia amostral  

s2 : desvio padr˜ ao amostral

y : propor¸c˜ ao amostral, sendo y o n´ umero de sucessos observados em uma amostra de tamanho n n

• etc. 3.7

Estimativa

´ o valor num´erico de um estimador. E ´ determinada usando os dados amostrais. E Se o estimador ´e x ¯, uma estimativa pode ser x ¯ = 1,72 m. Exemplo: O objetivo de uma pesquisa ´e conhecer o consumo m´edio semanal de combust´ıvel de ambulˆ ancias do Hospital HS em um dado ano. Vari´ avel: Consumo semanal de combust´ıvel das ambulˆancias do Hospital HS em um dado ano Popula¸c˜ ao: Todos os consumos semanais de combust´ıvel das ambulˆancias em um dado ano: N = 52 consumos semanais Parˆ ametro: Consumo m´edio semanal de combust´ıvel das ambulˆancias em um dado ano: µ Amostra (parte da popula¸c˜ ao): algumas semanas, por exemplo, n = 20 consumos semanais n X xi Estimador: x ¯ = i=1 n Estimativa: 60 L de combust´ıvel em m´edia por semana. 3.8

Exerc´ıcios

1. Uma empresa quer conhecer o perfil dos seus 474 funcion´arios para responder `as seguintes perguntas: - Identificar se h´ a predominˆ ancia masculina ou feminina - Mensurar a qualifica¸c˜ ao do pessoal (pelos anos de escolaridade) - Verificar como est´ a o turnover: avaliando as idades, tempo de servi¸co e experiˆencia pr´evia do pessoal Para tanto disp˜ oe dos seguintes dados, parcialmente apresentados na Figura 3:

FIGURA 3 Dados parciais da pesquisa da empresa De acordo com a planilha, considerando, tamb´em, somente os dados apresentados: a) Identificar os n´ıveis de mensura¸c˜ ao das 9 vari´aveis: - Sexo (SEXO) - Idade em anos completos (IDADE) - Anos de educa¸c˜ ao completos (ANOSEDUC) - Fun¸c˜ ao: servi¸cos gerais, escrit´ orio, gerˆencia (FUNCAO) 6

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

-

4 AMOSTRAGEM

Sal´ ario atual mensal (SALARIOA) Sal´ ario inicial mensal (SALARIOI) Anos de servi¸co (ANOSSERV) Experiˆencia pr´evia em anos (EXPERPR) Nacionalidade (NACIONAL)

b) H´ a interesse em obter sum´ arios descrevendo: - as fun¸c˜ oes exercidas de acordo com o sexo do funcion´ario - os sal´ arios atuais em fun¸c˜ ao do sexo do funcion´ario - os sal´ arios atuais em fun¸c˜ ao dos anos de educa¸c˜ao do funcion´ario Quais s˜ ao as vari´ aveis independentes e dependentes em cada caso? 2. Observando a vari´ avel relacione o tipo de dado que pode ser obtido assinalando com um “X” a respectiva coluna. Dado Qualitativo Quantitativo Nominal Ordinal Discreto Cont´ınuo

Vari´ avel Cor da pele Idade em anos completos Grau de desnutri¸c˜ ao Peso de rec´em-nascidos em gramas N´ umero de leitos no hospital Classe social (A, B, C, ...) Sexo N´ umero de casos de cˆ ancer de mama N´ umero de homens com enfisema pulmonar Tipagem sangu´ınea Nome de vacinas N´ umero de partos num determinado munic´ıpio Altura de um grupo de pessoas em metros Temperatura corporal em ◦ C Distˆ ancia percorrida por um maratonista em metros N´ umero de bact´erias numa placa de petri N´ umero de c´ aries Circunferˆencia cef´ alica em cm

3. A altura de um estudante (em cm) e a sua naturalidade s˜ao as vari´aveis estudadas por um pesquisador. Estas duas vari´ aveis s˜ ao: a) ambas cont´ınuas b) ambas discretas c) quantitativas cont´ınuas d) qualitativas nominais e) quantitativa e qualitativa, respectivamente 4. Quais das declara¸c˜ oes s˜ ao verdadeiras? a) Parˆ ametros descrevem amostras e estimativas descrevem popula¸c˜oes. b) Estimativas descrevem amostras e popula¸c˜oes. c) Parˆ ametros descrevem popula¸c˜ oes e estimativas descrevem amostras. d) Parˆ ametros descrevem amostras e popula¸c˜oes. 4

AMOSTRAGEM

´ a parte da estat´ıstica que estuda os diversos processos de obten¸c˜ao de amostras com o objetivo E de que elas sejam representativas da popula¸c˜ao em estudo. Amostras representativas s˜ao aquelas que guardam ou reproduzem as mesmas caracter´ısticas da popula¸c˜ao. Antes de obter amostras ´e necess´ario identificar a popula¸c˜ ao em estudo para utilizar a t´ecnica de amostragem adequada. Considerando-se uma popula¸c˜ ao a ser estudada, por meio de t´ecnicas de amostragem, obt´em-se uma amostra (ou v´ arias amostras), posteriormente calcula-se as estat´ısticas de interesse para a realiza¸c˜ ao de inferˆencias (aproximar ou concluir) sobre as caracter´ısticas da popula¸c˜ao (parˆametros). A Figura 4 UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

7


Estat´ıstica B´ asica

4 AMOSTRAGEM

esquematiza a obten¸c˜ ao de uma amostra e o uso de alguns estimadores para o c´alculo das estimativas que ser˜ ao u ´teis para a realiza¸c˜ ao de inferˆencia de um ou mais parˆametros de interesse.

FIGURA 4 Esquematiza¸c˜ao do processo de amostragem 4.1

Importˆ ancia

Como o interesse maior est´ a na popula¸c˜ao o ideal seria pesquisar toda a popula¸c˜ ao, em suma, realizar um censo (como o IBGE faz periodicamente no Brasil). Contudo, por raz˜ oes econˆ omicas ou pr´aticas (para obter rapidamente a informa¸c˜ ao ou evitar a extin¸c˜ ao ou exaust˜ ao da popula¸c˜ ao) nem sempre ´e poss´ıvel realizar um censo1 , como exemplifica a Figura 5. Por raz˜ oes econˆ omicas entende-se a limita¸c˜ ao de recursos ou o alto custo; por raz˜oes pr´ aticas, entende-se a limita¸c˜ ao de tempo e/ou do acesso a todos os indiv´ıduos da popula¸c˜ ao. Quando este for o caso, ´e prefer´ıvel conhecer a popula¸c˜ao a partir de uma parte dela (amostra), pois a principal vantagem de se usar amostragem ao inv´es de censo para pesquisar algo da popula¸c˜ ao ´e o menor custo e o menor tempo para a opera¸c˜ ao.

FIGURA 5 N˜ao seria melhor uma amostra?

Experiˆencia com amostragem ´e fato no nosso cotidiano. Quando vocˆe verifica o tempero de um prato, n˜ ao ser´ a necess´ ario comer tudo o que tem na panela. Quando vocˆe verifica a temperatura do seu corpo, n˜ ao precisa colocar o termˆ ometro em todas as suas partes. Ao verificar a calibragem do pneu do seu carro, vocˆe se baseia em apenas um ponto. Ao realizar um exame de sangue o laborat´orio retira 40 mL, pois ´e suficiente para os exames de rotina. De acordo com estas situa¸c˜ oes, a amostragem torna-se necess´aria, entretanto, o uso inadequado de um procedimento de amostragem pode induzir a um vi´es de interpreta¸c˜ao, como, por exemplo, n˜ ao mexer a sopa antes de tirar uma colher para verificar a temperatura do prato todo. Uma das principais subdivis˜ oes da Estat´ıstica ´e a Amostragem, que re´ une os m´etodos necess´ arios para coletar adequadamente amostras representativas e suficientes para que os resultados obtidos possam ser generalizados para a popula¸c˜ ao de interesse. Na pr´atica, nem sempre, a popula¸c˜ao estudada ´e homogˆenea. Assim, detalhes no planejamento dever˜ao ser considerados pelo pesquisador para a execu¸c˜ ao de um trabalho de amostragem com sucesso. 4.2

N´ umeros aleat´ orios

Antes de se estudar cada tipo de amostragem, deve-se procurar uma ferramenta que seja vi´avel para a sele¸ca˜o (ou sorteio) dos indiv´ıduos da popula¸c˜ao em estudo. Procedimentos como papeizinhos enumerados, palitinho, bingo entre outros s˜ ao u ´teis, mas em alguns casos n˜ao s˜ao funcionais. A ferramenta utilizada pela estat´ıstica ´e a t´ abua de n´ umeros aleat´orios, ou n´ umeros aleat´orios gerados por programas computacionais, ou at´e mesmo gerados pela sua calculadora (fun¸c˜ao random). 1

Fonte: http://rogeriocarpi.wordpress.com/2010/02/10/6-respostas-persuasivas-para-quem-nao-acredita-em-amostragem/. Acesso em: 06 nov. 2014

8

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

4 AMOSTRAGEM

Nas planilhas eletrˆ onicas (Excel, LibreOffice Calc) basta digitar em uma c´elula qualquer o comando = aleat´ orio() e teclar Enter. Na sua calculadora cient´ıfica existe a tecla RAN# que gera um n´ umero aleat´ orio entre 0 e 0,999. Se vocˆe multiplicar RAN# pelo tamanho da sua popula¸c˜ao, a calculadora gerar´ a um n´ umero compreendido entre 0 e o tamanho N da sua popula¸c˜ao. Para usar qualquer tipo de dispositivo aleat´orio deve-se considerar o tamanho N da popula¸c˜ ao da qual se quer selecionar indiv´ıduos e quantos algarismos s˜ao necess´arios para identificar um indiv´ıduo. Por exemplo: se a sua popula¸c˜ ao tiver 10 indiv´ıduos, vocˆe poder´a identific´a-los pelos n´ umeros de 0 a 9, ou por 01, 02, · · · , 10; na primeira situa¸c˜ ao foi utilizado um algarismo para identificar cada indiv´ıduo, na segunda, dois; se tiver 100 indiv´ıduos, vocˆe poder´a usar dois algarismos (00, 01, 02, · · · , 99) ou trˆes (001, 002, 003, · · · , 100); se tiver 932 indiv´ıduos, trˆes algarismos ser˜ao necess´arios. Existem diversos modelos de t´ abuas de n´ umeros aleat´orios e diversas formas de gerar n´ umeros aleat´ orios. O uso de t´ abuas de n´ umeros aleat´orios ou a fun¸c˜ao random da calculadora ´e bastante simples. ´ importante saber quantos algarismos s˜ E ao necess´arios para se identifica um indiv´ıduo da popula¸c˜ao. Exemplo: Numa popula¸c˜ ao2 de tamanho N = 300 indiv´ıduos, por algum motivo, ser´a obtida uma amostra de tamanho n = 10. Como dever´a ser realizada a sele¸c˜ao destes 10 indiv´ıduos? E quais ser˜ ao sorteados? Resolu¸c˜ ao: + Primeiramente deve-se enumerar os indiv´ıduos, por exemplo de 001 a 300. + Considerando a Tabela 2 como uma tabela de n´ umeros aleat´orios obtida em um livro (ou por um programa de computador) ´e necess´ario: - Decidir qual parte do n´ umero aleat´orio ser´a adotada, por exemplo, na Tabela 2 cada n´ umero possui 5 d´ıgitos, a popula¸c˜ ao est´ a identificada por 3 d´ıgitos; desses 5 d´ıgitos, quais ser˜ao adotados? Os trˆes primeiros? Os trˆes internos? Os trˆes finais? Etc. Adontado uma situa¸c˜ao ela deve ser seguida para quaisquer outros n´ umeros obtidos da tabela; - Escolher ` as “cegas” um n´ umero; - Obter outros n´ umeros sistematicamente, na linha tal qual se lˆe um livro (da esquerda para a direita), como se lˆe uma lista de classifica¸c˜ao (de cima para baixo) ou de outra forma; - Considerar apenas os n´ umeros que fizerem parte do intervalo de valores que identificam os indiv´ıduos da popula¸c˜ ao, os demais n´ umeros fora do intervalo dever˜ao ser descartados; - Selecionar tantos indiv´ıduos quanto for o tamanho da amostra. + Da Tabela 2 ` as “cegas” foi escolhido o n´ umero 67824 e que ser˜ao considerados somente os 3 primeiros d´ıgitos de cada n´ umero aleat´ orio obtido da leitura realizada da esquerda para `a direita. Como 678 n˜ ao ´e um n´ umero que est´ a no intervalo de 001 a 300 ele ser´a descartado e ser´a, ent˜ao, observado o pr´ oximo n´ umero, 52681, do qual 526 dever´ a ser adotado, mas que da mesma forma que o n´ umero anterior, dever´ a ser descartado. O mesmo acontece com os n´ umeros 31148 e 83761. Depois, o pr´oximo n´ umero da tabela ´e o n´ umero 07236 que indentifica o indiv´ıduo de n´ umero 072, pois 072 ´e um n´ umero do intervalo de 001 a 300. Outros n´ umeros aleat´ orios da sequˆencia s˜ao 66537, 70834, 33260, 72583, 31768, 30247, 90313, 77538 que dever˜ ao ser, tamb´em, descartados pelo mesmo motivo. Portanto, seguindo o procedimento, os n´ umeros aproveit´ aveis da tabela s˜ ao: 05367, 21768, 09324, 29734, 09525, 29448, 05783, 13143, 05070 os quais identificam os indiv´ıduos 053, 217, 093, 297, 095, 294, 057, 131e 050. Juntamente com 072 estes n´ umeros identificam os n = 10 indiv´ıduos que compor˜ao a amostra.

00071 86770 43287 07386 16458 70834 54121 09525 95267 90400 73045 65401

11404 65621 93998 22667 33362 33260 21768 76354 75464 93614 41818 27959

TABELA 10478 95574 73709 52883 67824 72583 09324 93561 05783 13143 07465 64237

2 T´abua de n´ umeros 24317 60312 93724 49741 00325 78627 05673 74698 52681 31148 31768 30247 79572 29734 63399 84743 98523 48585 58366 05070 32104 56402 63240 53541

aleat´orios 25164 65251 36815 64385 83761 90313 68417 39751 66947 37304 53973 13547

12446 11256 87116 12125 07236 77538 97521 29448 30541 48277 20565 33938

62689 01222 94800 06233 66537 05367 56698 31790 64728 34132 54873 61258

Nota: tabela resumida 2

N ser´ a sempre usado para representar o tamanho da popula¸c˜ ao e n sempre se referir´ a ao tamanho da amostra.

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

9


Estat´ıstica B´ asica

4 AMOSTRAGEM

Caso use a calculadora ou uma planilha eletrˆonica, a ideia ´e a mesma. Entretanto, a tecnologia permite selecionar somente indiv´ıduos dentro do intervalo, facilitando o trabalho do pesquisador. 4.3

Tipos de amostragem

O modo como a amostra ser´ a retirada da popula¸c˜ao ´e definida pelo tipo de amostragem, podendo ser n˜ ao probabil´ıstica ou probabil´ıstica. Cada qual apresenta suas particularidades e aplica¸c˜oes. 4.3.1

Amostragem n˜ ao probabil´ıstica

Esse tipo de amostragem ´e usada quando a sele¸c˜ao de indiv´ıduos ´e justificada ou racional. Os indiv´ıduos ser˜ ao selecionados de modo n˜ ao probabil´ıstico, ou seja, eles n˜ao apresentam probabilidade igual a de pertencer ` a amostra. As estat´ısticas observadas na amostra n˜ao podem ser generalizadas para a popula¸c˜ ao por n˜ ao ter como estimar o erro amostral, contudo se as caracter´ısticas da popula¸c˜ao acess´ıvel forem semelhantes ` a popula¸c˜ ao em estudo, as estat´ısticas podem ser equivalentes aos de uma amostragem probabil´ıstica, embora n˜ ao haja garantia da sua confiabilidade. Entre as diversas justificativas para o seu uso, destacam-se: i) Inacessibilidade a toda popula¸c˜ ao; ii) A popula¸c˜ ao n˜ ao pode ser enumerada; iii) A popula¸c˜ ao ´e formada por material cont´ınuo; iv) A escolha da amostra ´e feita intencionamente. Os tipos de amostragem n˜ ao probabil´ıstica mais comuns s˜ao: i) Amostragem a esmo - ´e utilizada quando h´a inacessibilidade a toda popula¸c˜ao, quando n˜ao ´e poss´ıvel enumerar todos os indiv´ıduos da popula¸c˜ao ou quando a popula¸c˜ao ´e formada por material cont´ınuo. Exemplos: a) Num lote com 20.000 ampolas de certo medicamento selecionar aleatoriamente 100 ampolas seria muito trabalhoso, ent˜ ao, simplesmente seleciona-se algumas a esmo. b) Numa f´ abrica em que se produz um certo produto em s´erie, n˜ao ´e poss´ıvel enumerar todos os indiv´ıduos e nem ter acesso a todos, ent˜ao, neste caso, seleciona-se os que est˜ao sendo produzidos no momento. c) Estudo sobre a qualidade do ar, estudo sobre a qualidade da ´agua, estudo sobre a qualidade do solo, estudo sobre n´ıvel de glicose no sangue etc, s˜ao exemplos em que a popula¸c˜ao alvo ´e formada por material cont´ınuo. ii) Amostragem intencional - o pesquisador escolhe deliberadamente certos elementos para formar a ´ um tipo de amostragem muito usado em estudos qualiamostra baseado num pr´e-julgamento. E tativos. O risco de se obter uma amostra viciada ´e muito grande por se basear na preferˆencia do pesquisador. Exemplo: Ao experimentar os efeitos de uma nova droga para o tratamento da AIDS o pesquisador escolhe n = 20 pacientes terminais entre todos os pacientes com a doen¸ca. iii) Amostragem por cotas - ´e semelhante a uma amostragem estratificada proporcional3 , diferenciando por n˜ ao empregar sorteio na sele¸c˜ ao dos elementos a serem amostrados. Muito empregada nas pesquisas eleitorais em que a popula¸c˜ao ´e dividida em subgrupos, segundo informa¸c˜oes do IBGE, dos quais seleciona-se uma cota proporcional ao seu tamanho. Os indiv´ıduos que far˜ao parte da amostra s˜ ao selecionados pelos entrevistadores e n˜ao de forma aleat´oria (probabil´ıstica). 4.3.2

Amostragem probabil´ıstica

Uma amostragem probabil´ıstica considera que todos os elementos da popula¸c˜ao tˆem probabilidade conhecida e n˜ ao nula de pertencer ` a amostra. Ela ´e aplic´avel sempre que for poss´ıvel enumerar a popula¸c˜ ao de modo que cada indiv´ıduo tenha a mesma chance de compor uma amostra. A amostragem probab´ıstica pode ser: 3

´ um tipo de amostragem probabil´ıstica E

10

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

4 AMOSTRAGEM

Amostragem simples ao acaso (ASA) ´ usada quando a popula¸c˜ E ao ´e homogˆenea, podendo ser com ou sem reposi¸c˜ao. Sendo com reposi¸c˜ ao, um indiv´ıduo poder´ a fazer parte da amostra mais de uma vez. E se for sem reposi¸c˜ao, um ind´ıviduo s´ o tem oportunidade de aparecer na amostra apenas uma u ´nica vez. Suponha uma popula¸c˜ ao composta pelas caracter´ısticas de interesse de 3 indiv´ıduos A, B e C, da qual se deseja obter uma amostra de tamanho 2. Tem-se, ent˜ao, N = 3 e n = 2. Portanto, se amostragem for com reposi¸c˜ ao ´e poss´ıvel obter N n amostras diferentes, ou seja, N n = 32 = 9 amostras diferentes: AA, AB, AC, BA, BB, BC, CA, CB ou CC. Se a amostragem for sem reposi¸c˜ao ´e poss´ıvel formar CN, n amostras distintas4 . Por exemplo, na popula¸c˜ao descrita anteriormente obt´em-se CN, n = C3, 2 = 3 amostras diferentes: AB, AC ou BC. Para executar uma amostragem simples ao acaso (ASA), deve-se: • Enumerar todos indiv´ıduos da popula¸c˜ao; • Realizar o sorteio; • Coletar as informa¸c˜ oes dos indiv´ıduos amostrados. Exemplo: Uma sala de aula possui 30 alunos. Pretende-se conhecer a idade m´edia da turma. Suponha que a idade (em anos) de cada um seja: 25, 20, 35, 21, 22, 24, 25, 30, 38, 24, 20, 20, 25, 20, 19, 25, 23, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23. Extraia uma amostra aleat´oria simples de tamanho n = 10 desta popula¸c˜ ao. Solu¸c˜ ao; O primeiramente enumera-se os indiv´ıduos. Os n´ umeros entre parˆenteses indentificam os alunos, assim: 25(01) , 20(02) , 35(03) , 21(04) , 22(05) , 24(06) , 25(07) , 30(08) , 38(09) , 24(10) , 20(11) , 20(12) , 25(13) , 20(14) , 19(15) , 25(16) , 23(17) , 24(18) , 28(19) , 24(20) , 24(21) , 22(22) , 28(23) , 26(24) , 23(25) , 25(26) , 22(27) , 27(28) , 25(29) , 23(30) . Agora, ´e realizar o sorteio. Usando a fun¸c˜ ao random da calculadora os n = 10 alunos selecionados foram: 11o , 10o , 5o , 23o , 25o , 10o , 4o , 2o , 1o , 28o . Destes alunos sorteados, obt´em-se, respectivamente, as seguintes idades: 20, 24, 22, 28, 23, 24, 21, 20, 25, 27. Portanto a idade m´edia ´e igual a 23,4 anos. Amostragem sistem´ atica (AS) ´ usada quando a popula¸c˜ E ao ´e homogˆenea e possui algum tipo de organiza¸c˜ao, como filas, ruas, ordem alfab´etica, data de anivers´ ario, data de entrada no hospital etc. A amostragem sistem´atica ´e uma adapta¸c˜ ao da amostragem simples ao acaso e ´e usada quando a popula¸c˜ao u ´til ´e muito grande e as unidades amostrais n˜ ao podem ser numeradas de forma conveniente ou exequ´ıvel. Para realizar uma amostragem sistem´atica (AS), segundo [??], deve-se: • Ordenar os elementos da popula¸c˜ ao segundo algum crit´erio. • Determinar o intervalo de amplitude (k), tamb´em denominado de passo de amostragem: k=

N n

Sendo: – k: o intervalo de amplitude (´e um n´ umero inteiro, quando necess´ario, deve-se arredondar); – N : o tamanho da popula¸c˜ ao (n´ umero de indiv´ıduos) e – n: o tamanho da amostra. • Usar um dispositivo aleat´ orio para sortear um n´ umero entre 1 e k. Este n´ umero ´e denominado de in´ıcio casual i e representa o primeiro e u ´nico elemento que foi sorteado da popula¸c˜ao. • Determinar os demais elementos (indiv´ıduos) utilizando-se o in´ıcio casual i e o passo de amostragem k conforme o esquema a seguir: i + k, i + 2k, i + 3k, . . . , i + (n − 1)k; 4

CN, n =

N! n!(N − n)!

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

11


Estat´ıstica B´ asica

4 AMOSTRAGEM

Sendo i + k o segundo elemento, i + 2k o terceiro elemento e assim at´e o i + (n − 1)k o n-´esimo elemento. Logo, os elementos que fazem parte da amostra s˜ao: i, i + k, i + 2k, i + 3k, . . . , i + (n − 1)k; • Coletar as informa¸c˜ oes dos indiv´ıduos amostrados. Exemplo: Suponha que em um hospital h´a 80 crian¸cas diagnosticadas com cˆancer e que por algum motivo deseja-se uma amostra de tamanho5 n = 10 para tra¸car o perfil dessas crian¸cas [??]. Quais crian¸cas ser˜ ao selecionadas? Solu¸c˜ ao: Considerando que as crian¸cas estejam ordenadas de alguma forma, como por exemplo, por ordem alfab´etica agrupadas em pastas, como a Figura 6.

FIGURA 6 Pastas com os nomes das crian¸cas Caber´ a, agora, calcular o intervalo de amplitude (passo de amostragem): k=

N 80 = =8 n 10

Sorteia-se um n´ umero entre 1 e k = 8 para determinar o in´ıcio casual. Suponha que foi sorteado o n´ umero 1, ent˜ ao os elementos amostrados s˜ao: i + 5k = 1 + 5 × 8 = 41

i=1 i+k =1+8=9 i + 2k = 1 + 2 × 8 = 17 i + 3k = 1 + 3 × 8 = 25 i + 4k = 1 + 4 × 8 = 33

i + 6k = 1 + 6 × 8 = 49 i + 7k = 1 + 7 × 8 = 57 i + 8k = 1 + 8 × 8 = 65 i + 9k = 1 + 9 × 8 = 73

Se, por acaso, o n´ umero sorteado entre 1 e k = 8 fosse igual a 3, teria i = 3 e as crian¸cas amostradas seriam: 3, 11, 19, 27, 35, 43, 51, 59, 67, 75 . Amostragem por conglomerado (AC) ´ usada quando a popula¸c˜ E ao pode ser agrupada em subconjuntos ou conglomerados heterogˆeneos que possui a caracter´ıstica da popula¸c˜ao em estudo. Esses agrupamentos normalmente consistem de 5

Este tamanho de amostra n˜ ao foi determinado, portanto n˜ ao ´ e poss´ıvel a generaliza¸ca ˜o dos resultados para a popula¸ca ˜o de crian¸cas, serve apenas para ilustra¸ca ˜o

12

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

4 AMOSTRAGEM

unidades como regi˜ oes, cidades, partes do censo, de onde ´e selecionada uma amostra simples ao acaso. O objetivo principal ´e facilitar a coleta de informa¸c˜ao dos elementos da amostra. Para realizar uma amostragem por conglomerado ´e necess´ario: • Dividir a popula¸c˜ ao em conglomerados (heterogˆeneos dentro e homogˆeneos entre si); • Sortear os conglomerados a serem estudados por meio de uma ASA; • Coletar informa¸c˜ oes de todos os indiv´ıduos que comp˜oem o conglomerado ou selecionar alguns indiv´ıduos por meio de outras t´ecnicas de amostragem dentro de cada conglomerado de acordo com o tamanho da amostra necess´ ario. Na Figura 7 ´e apresentada uma popula¸c˜ao de tamanho N composta por M conglomerados da qual s˜ ao selecionados m conglomerados para avaliar os n indiv´ıduos que dever˜ao ser amostrados6 .

FIGURA 7 Esquematiza¸c˜ao da amostragem por conglomerado Uma amostragem por conglomerado ´e indicada quando: n˜ao se possui uma lista contendo todos os nomes dos elementos da popula¸c˜ ao; existe grande heterogeneidade entre os elementos da popula¸c˜ao; ´e preciso fazer entrevistas ou observa¸c˜ oes em grandes ´areas geogr´aficas e o custo para a obten¸c˜ao dos dados cresce com o aumento da distˆ ancia entre os elementos. Exemplo: Um pesquisador quer identificar os principais fatores causadores de estresse no trˆansito em adultos das cidades de Minas Gerais com mais de 100.000 habitantes. Popula¸c˜ ao: N adultos das cidades de Minas Gerais com mais de 100.000 habitantes; Conglomerados: M cidades com mais de 100.000 habitantes; Amostra de conglomerados: m cidades selecionadas; Amostra de elementos: n adultos das m cidades da amostra de conglomerados. Amostragem estratificada (AE) ´ usada quando a popula¸c˜ E ao ´e heterogˆenea, mas pode ser agrupada em grupos menores ho´ uma adapta¸c˜ao da amostragem simples ao acaso, diferenciando, mogˆeneos denominados de estratos. E apenas, por ter subgrupos mutuamente exclusivos, os estratos, de onde s˜ao extra´ıdas amostras aleat´orias. Tem por objetivo: melhorar a representatividade da amostra quando os elementos da popula¸c˜ao s˜ao heterogˆeneos, por´em, podem ser agrupados em subpopula¸c˜oes (estratos) contendo elementos homogˆeneos. Os estratos podem ser: sexo, idade, n´ıvel socioeconˆomico, regi˜ao etc. Para realizar uma amostragem estratificada ´e importante seguir os procedimentos: • Dividir a popula¸c˜ ao em k estratos (homogˆeneos dentro e heterogˆeneos entre si); • Enumerar os indiv´ıduos dentro de cada estrato; • Obter de cada estrato de tamanho Ni , com i = 1, 2, . . . , k, amostras de tamanho ni das quais os indiv´ıduos ser˜ ao sorteados por meio de uma ASA; • Coletar as informa¸c˜ oes dos indiv´ıduos selecionados de cada amostra. 6

Ser´ a considerado, para simplificar, que no conglomerado sorteado todos os seus elementos ser˜ ao estudados

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

13


Estat´ıstica B´ asica

4 AMOSTRAGEM

Na Figura 8 est´ a representada uma popula¸c˜ao dividida em k estratos da qual se observa que em cada estrato de tamanho Ni foram obtidas, respectivamente, amostras de tamanho ni . Al´em disso nota-se que a soma dos tamanhos de cada estrato ´e igual ao tamanho da popula¸c˜ao e que a soma dos tamanhos de cada amostra obtida do seu respectivo estrato ´e igual ao tamanho da amostra a ser pesquisada.

FIGURA 8 Esquematiza¸c˜ao da amostragem estratificada De acordo com as caracter´ısticas dos estratos, a amostragem estratificada pode ser: Amostragem estratificada uniforme Quando os k estratos tiverem tamanhos iguais ou pr´oximos, as amostras de cada estrato podem possuir mesmos tamanhos. Neste caso o tamanho de cada amostra a ser obtida de cada estrato da popula¸c˜ ao ´e calculada por: n ni = k Em que: ni : ´e o tamanho de cada estrato, i = 1, 2, . . . , k; k P n: ´e o tamanho da amostra, sendo que ni = n; i=1

k: ´e o n´ umero de estratos desta popula¸c˜ ao. Exemplo: No hospital HS est˜ ao em observa¸c˜ao 500 pessoas de 0 a 40 anos. Por algum motivo dividiu-se a popula¸c˜ ao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se quantas pessoas faziam parte de cada estrato (idade). Foi definido7 que o tamanho da amostra n a ser obtida ´e igual a 50. A divis˜ ao dos estratos e o n´ umero de pessoas por estrato ´e apresentado na Tabela 3. TABELA 3 Estratifica¸c˜ ao das 500 pessoas em observa¸c˜ao no hospital HS Estratos (Idades) N´ umero de indiv´ıduos 00 ` 02 100 02 ` 05 98 05 ` 10 104 10 ` 20 102 20 ` 40 96 Total 500

Calcule o tamanho da amostra a ser obtida em cada estrato. Solu¸c˜ ao: Como cada estrato apresenta tamanho muito pr´oximo, optou-se por uma amostra estratificada uniforme sendo que o tamanho de cada amostra a ser obtida de cada estrato ´e igual a: ni = 7

n 50 = = 10 k 5

O c´ alculo para determinar o tamanho da amostra ser´ a apresentado na Se¸c˜ ao 8.4.4

14

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

4 AMOSTRAGEM

Desta forma, a divis˜ ao dos estratos, o n´ umero de pessoas por estrato e o tamanho da amostra a ser obtida em cada estrato podem ser visualizados na Tabela 4.

TABELA 4 Estratifica¸c˜ ao das 500 pessoas em observa¸c˜ao no hospital HS e os respectivos tamanhos dos estratos e tamanhos de amostras Estratos (Idades) N´ umero de indiv´ıduos Tamanho da amostra 00 ` 02 100 10 02 ` 05 98 10 05 ` 10 104 10 10 ` 20 102 10 20 ` 40 96 10 Total 500 50

Deve-se observar que a soma dos tamanhos de cada estrato ´e igual ao tamanho da popula¸c˜ ao em estudo e que a soma das amostras obtidas de cada estrato ´e igual ao tamanho da amostra de interesse. Amostragem estratificada proporcional Nesta amostragem estratificada, do estrato i deve-se obter uma quantidade (amostra) ni de elementos que ´e proporcional ao tamanho Ni de cada estrato da popula¸c˜ao de tamanho N . O tamanho ni de cada estrato ´e determinado por: Ni ·n ni = N Em que: ni : ´e o tamanho da amostra a ser obtida no estrato i Ni : ´e o tamanho do estrato i; N : ´e o tamanho da popula¸c˜ ao; n: ´e o tamanho da amostra. Exemplo: Em um hospital est˜ ao em observa¸c˜ao 1000 pessoas de 0 a 40 anos. Por algum motivo dividiu-se a popula¸c˜ ao em k = 5 estratos, ou seja, 5 categorias de idades. Posteriormente, contou-se quantas pessoas faziam parte de cada estrato (idade). Foi definido que o tamanho da amostra n a ser obtida ´e igual a 50. A divis˜ ao dos estratos e o n´ umero de pessoas por estrato podem ser observados na Tabela 5. TABELA 5 Estratifica¸c˜ ao das 1000 pessoas em observa¸c˜ao no hospital HS Estratos (Idades) N´ umero de indiv´ıduos 00 ` 02 500 02 ` 05 320 05 ` 10 100 10 ` 20 50 20 ` 40 30 Total 1000

Determine o tamanho das amostras a serem obtidas em cada estrato da popula¸c˜ao em estudo. Solu¸c˜ ao: Para obter o tamanho das amostras a serem retiradas de cada estrato deve-se calcular: • Para o estrato 1: n1 =

N1 500 ·n= · 50 = 25 N 1000

• Para o estrato 2: n2 =

N2 320 ·n= · 50 = 16 N 1000

• Para o estrato 3: n3 =

N3 100 ·n= · 50 = 5 N 1000

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

15


Estat´ıstica B´ asica

• Para o estrato 4: n4 =

4 AMOSTRAGEM

N4 50 ·n= · 50 = 2,5 N 1000

N5 30 ·n= · 50 = 1,5 N 1000 Organizando os resultados obtidos na Tabela 6, observa-se que foi arredondado para cima o tamanho da amostra do estrato 4 e que foi truncado o valor obtido para o tamanho da amostra do estrato 5. Tal opera¸c˜ ao foi realizada a fim de que a soma dos tamanhos das amostras retiradas dos estratos fosse igual a n = 50. • Para o estrato 5: n5 =

TABELA 6 Estratifica¸c˜ ao das 1000 pessoas em observa¸c˜ao no hospital HS e os respectivos tamanhos dos estratos e tamanhos de amostras Estratos (Idades) N´ umero de indiv´ıduos Tamanho da amostra 00 ` 02 500 25 02 ` 05 320 16 05 ` 10 100 05 10 ` 20 50 03 20 ` 40 30 01 Total 1000 50

Novamente, nota-se que a soma dos tamanhos de cada estrato ´e igual ao tamanho da popula¸c˜ ao e que a soma dos tamanhos das amostras obtidas dos estratos ´e igual ao tamanho da amostra a ser estudada. Amostragem estratificada ´ otima Em uma amostragem estratificada ´otima al´em do tamanho de cada estrato ´e considerada, tamb´em, a variabilidade dos dados do estrato para determinar o tamanho da amostra a ser obtida nos mesmos. Com isso consegue-se otimizar a obten¸c˜ao de informa¸c˜oes sobre a popula¸c˜ao, pois naquele estrato em que houver menor varia¸c˜ ao ela poder´a influenciar na obten¸c˜ao de uma menor quantidade de elementos amostrados. Assim, o tamanho de cada amostra a ser retirada do seu respectivo estrato ´e calculado por: Ni σ i n k P Ni σ i

ni =

i=1

Sendo: ni : ´e o tamanho da amostra a ser obtida no estrato i Ni : ´e o tamanho do estrato i; n: ´e o tamanho da amostra; k: ´e o n´ umero de estratos; σi : ´e o desvio padr˜ ao populacional do estrato i. Cr´ıtica: Necessidade de conhecer o desvio padr˜ ao populacional em cada estrato para a vari´avel estratificadora, o que em geral n˜ ao poss´ıvel. Usa-se, ent˜ ao, estim´a-lo por meio de uma amostra piloto encontrando, assim, o desvio padr˜ ao amostral8 que ´e usado para estimar o desvio padr˜ao populacional. Quando a vari´ avel em estudo ´e qualitativa n˜ao existe o desvio padr˜ao populacional. 4.4

Exerc´ıcios

1. Observe a figura ao lado. Responda: o que tem isto a ver com amostragem? Se tem algo, qual amostragem poderia ser realizada pelo marido para n˜ ao escutar uma bronca da sua esposa? Justifique.

8

O c´ alculo do desvio padr˜ ao amostral ser´ a visto na Se¸c˜ ao 5.2.5

16

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

4 AMOSTRAGEM

2. Um cientista pretende observar o comportamento dos 67 primatas de uma reserva, para isso ele quer estudar 10 deles. Ent˜ ao, ele cria uma estrutura amostral atribuindo a esses primatas os n´ umeros 01, 02, . . ., 67, e obt´em a seguinte sequˆencia de n´ umeros gerada por computador: 39126 49648 81754 09284 10219 23109 31157 00890 12782 16922 74448 63933 69134 38845 77315 13332 25819 91862 19203 12864 20783 68735 09460 63677 52029 Se ele utiliza os dois primeiros n´ umeros de cada n´ umero aleat´orio (come¸cando, assim, com 39, 49, 81, 09, . . .), quais primatas ser˜ ao selecionados? 3. Os 35 alunos de uma determinada sala de aula possuem as seguintes idades em anos: 25, 20, 35, 21, 22, 22, 24, 25, 30, 38, 24, 20, 20, 25, 20, 19, 25, 23, 20, 24, 28, 24, 24, 22, 28, 26, 23, 25, 22, 27, 25, 23, 28, 27, 22. Com o objetivo de estimar a idade m´edia, como vocˆe extrairia uma amostra simples ao acaso, de tamanho n = 10 desta popula¸c˜ ao? Determine a idade m´edia da turma. Dˆe todos os detalhes. 4. Os 60 pacientes de um m´edico apresentam os n´ıveis de glicose em jejum em mg/dL: 62 58 62 69 58 70 66 78 77 64 68 78 59 54 77 73 78 80 74 71 60 79 78 73 77 60 81 75 64 66 63 66 62 84 81 78 78 77 78 76 75 71 75 74 68 87 78 76 79 67 66 77 76 72 80 78 76 64 75 79 Sorteie 10 pacientes, sem reposi¸c˜ ao, desse conjunto. Use a t´abua de n´ umeros aleat´orios abaixo, adote pares de n´ umeros, como se lˆe um livro, come¸cando por 70, 89, 18, 88, 21, 97, 45, ... 70891 88821 97452 20353 06361 70990 18735 56086 26943 40213 23032 58781 27620 97239 15102 86483 01587 05547 41280 00572 18550 32127 48564 58748 19827 45549 06723 64692 55592 31574 11217 32794 63345 61088 01293 93914 32518 61105 56574 50105 11601 04533 53473 74240 32640 16851 23814 38439 03748 67555 03404 91598 66248 13918 92221 19450 11166 20498 99753 86323 46310 05831 65045 77398 a) Quais foram os pacientes sorteados? b) Quais s˜ ao os valores de glicemia de cada indiv´ıduo amostrado? 5. Se os 35 alunos do exerc´ıcio 3 estivessem organizados em 5 filas de 7 alunos cada, qual seria a t´ecnica de amostragem mais indicada? Selecione uma amostra de tamanho n = 10 e determine a idade m´edia da turma dando todos os detalhes. 6. Uma empresa tem 3.414 empregados repartidos nos seguintes setores: Setores No de funcion´arios Administrativo 314 Transporte 948 Oper´ arios 1.451 Outros 701 Deseja-se selecionar uma amostra de tamanho n = 50 de funcion´arios para uma entrevista. Qual o tipo de amostragem ´e recomendado para esta situa¸c˜ao? Justifique e apresente todos os passos para selecionar os 50 funcion´ arios. 7. Uma ind´ ustria de cosm´esticos possui 100 funcion´arios dos quais 70 trabalham exclusivamente dentro da f´ abrica e 30 ora trabalham dentro, ora trabalham fora. As idades dos 100 funcion´arios s˜ao apresentadas na ordem de como foram coletadas (lˆe-se segundo as linhas, tal como se lˆe um livro) de modo que as setenta primeiras idades s˜ ao dos funcion´ arios que trabalham exclusivamente dentro da ind´ ustria e as trinta u ´ltimas daqueles que trabalham ora dentro, ora fora da ind´ ustria. 33 35 35 34 34 33 36 39 40 39 UNIFAL-MG/Alfenas

38 34 33 35 34 32 36 40 41 40

34 30 33 34 36 34 33 40 45 41

34 37 34 33 35 35 34 42 41 40

34 36 31 31 34 37 33 39 40 40

31 33 32 35 33 35 32 38 39 42

36 34 36 35 32 35 31 40 41 39

35 34 33 35 38 30 37 40 41 39

Profs. Fl´ avio Bittencourt/Adriana Dias

32 32 29 37 34 35 35 40 40 38

37 39 36 32 33 34 34 40 42 40 17


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

a) Qual ´e a popula¸c˜ ao em estudo? b) Qual ´e a vari´ avel em estudo e sua classifica¸c˜ao? c) Uma amostra, de dez indiv´ıduos foi retirada da popula¸c˜ao de cem, com aux´ılio dos n´ umeros aleat´orios. A seguir, foi calculada a idade m´edia da amostra das dez idades. Que valor vocˆe acha que foi obtido para essa m´edia? d) Suponha agora que se pensasse em fazer amostragem estratificada. Em sua opini˜ao, seria razo´avel, no caso? Caso afirmativo, indique como vocˆe procederia, ainda utilizando os n´ umeros aleat´orios. Suponha que o tamanho da amostra continue sendo igual a dez. e) Suponha agora que tivesse sido utilizada amostragem estratificada uniforme, num total ainda de dez idades, e que tivessem sido obtidos, no primeiro e no segundo estratos, respectivamente, x ¯1 = 33,8 e x ¯2 = 40,2. Em quanto vocˆe estimaria a idade m´edia da popula¸c˜ao de cem idades? 8. A Reitoria da UNIFAL-MG quer aplicar um question´ario `a comunidade acadˆemica (servidores, alunos e professores) para avaliar a opini˜ ao sobre a modifica¸c˜ao do calend´ario acadˆemico durante a Copa. Disp˜ oe de um cadastro com 107 servidores, 525 alunos e 214 professores. Deseja-se amostrar 100 pessoas. Qual o tipo de amostragem vocˆe utilizaria e quantos indiv´ıduos de cada categoria seriam avaliados? 9. Deseja-se selecionar uma amostra de domic´ılios da cidade de Alfenas. Um total de 5 ruas com caracter´ısticas pr´ oximas compor˜ ao as subdivis˜ oes da popula¸c˜ao em estudo. No quadro abaixo, A1 representa o primeiro domic´ılio da Rua A, A2 o segundo, e assim por diante. Ruas A B C D E

Domic´ılios A1 A2 A3 A4 A5 A6 . . . A56 B1 B2 B3 B4 B5 B6 . . . B85 C1 C2 C3 C4 C5 C6 . . . C48 D1 D2 D3 D4 D5 D6 . . . D108 E1 E2 E3 E4 E5 E6 E7 E8 . . . E209

Inicialmente foram sorteadas duas ruas (B e D) e depois foram selecionados todos os domic´ılios de cada rua. Identifique o tipo de amostragem realizada.

5

ESTAT´ ISTICA DESCRITIVA

A estat´ıstica descritiva ´e a ´ area da estat´ıstica que aplica v´arias t´ecnicas para a organiza¸c˜ao, a apresenta¸c˜ ao e a descri¸c˜ ao de um conjunto de dados. O objetivo ´e a descri¸c˜ao dos dados ao inv´es de usar os dados em aprendizado sobre a popula¸c˜ao. As principais caracter´ısticas do conjunto de dados ´e apresentada por meio de tabelas, de gr´ aficos e de m´etodos num´ericos. Neste cap´ıtulo ser˜ ao vistos alguns exemplos de tabelas e de gr´aficos que poder˜ao representar, objetivamente, as informa¸c˜ oes e caracter´ısticas de uma vari´avel e, posteriormente, os m´etodos num´ericos que podem representar uma amostra: medidas de posi¸c˜ao, medidas separatrizes e medidas de variabilidade. 5.1

Apresenta¸ c˜ ao dos dados

5.1.1

Tabelas

A tabela ´e uma ferramenta bastante eficiente de mostrar o comportamento da(s) vari´avel(is), facilita a compreens˜ ao e a interpreta¸c˜ ao dos dados. O seu objetivo ´e fornecer uma ideia mais precisa e possibilitar uma inspe¸c˜ ao mais rigorosa aos dados. Uma tabela ´e composta basicamente por: • cabe¸calho • corpo • rodap´e O t´ıtulo aparece sempre na parte superior da tabela devendo sempre conter informa¸c˜oes que respondam ` as perguntas relacionadas ao fenˆomeno estudado: • o que est´ a representando? • onde ocorreu? • quando ocorreu? 18

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

O cabe¸calho indica a natureza do conte´ udo de cada coluna, por exemplo, o nome da vari´avel independente e o nome da vari´ avel dependente. O corpo ´e representado por colunas e subcolunas dentro das quais ser˜ao registrados os dados e/ou informa¸c˜ oes. O rodap´e ´e um espa¸co na parte inferior da tabela utilizado para inserir notas e/ou fonte dos dados. Em muitos casos ´e dispens´ avel. Embora existam diversas classifica¸c˜oes para as tabelas, neste material as tabelas ser˜ao consideradas como distribui¸ c˜ ao de frequˆ encias. Uma distribui¸c˜ao de frequˆencia ´e um agrupamento dos dados em classes de modo a contabilizar o n´ umero de ocorrˆencias em cada classe. O n´ umero de ocorrˆencias de cada classe recebe o nome de frequˆencia absoluta. O objetivo da tabela de distribui¸c˜ao de frequˆencias ´ usada, tamb´em para discriminar a ´e fornecer uma boa visualiza¸c˜ ao do comportamento dos dados. E distribui¸c˜ ao de probabilidade de uma amostra (ou popula¸c˜ao). S˜ ao exemplos de distribui¸c˜ ao de frequˆencias:

S´ erie temporal ´ a s´erie em que Tamb´em conhecida como s´erie cronol´ogica, s´erie evolutiva ou s´erie hist´orica. E os dados s˜ ao observados de acordo com o tempo em que ocorrem, permanecendo constantes o local e o fenˆ omeno.

TABELA 8 N´ umero de notifica¸c˜ oes de ´ obitos ao SIM, por doen¸cas end´ocrinas nutricionais e metab´olicas. Brasil, 2005 a 2011 Ano 2005 2006 2007 2008 2009 2010 2011

N´ umero de o ´bitos 53.983 58.904 61.860 64.631 66.984 70.276 73.929

Fonte: SIM-CGIAE/SVS/MS. Dispon´ıvel em: http://www.datasus.gov.br

S´ erie geogr´ afica ´ a s´erie em que os Tamb´em chamada de s´erie de localiza¸c˜ao, s´erie regional ou s´erie territorial. E dados s˜ ao observados de acordo com a localidade em que ocorreram, permanecendo constantes a ´epoca e o fenˆ omeno. Exemplo:

TABELA 9 Interna¸c˜ oes por acidente de trˆ ansito segundo a Unidade de Federa¸c˜ao, faixa et´aria de 25 a 29 anos, nov-2013 Regi˜ ao Sudeste Nordeste Centro-Oeste Sul Norte

N´ umero de interna¸co ˜es 144 94 10 9 4

Fonte: Minist´ erio da Sa´ ude. Dispon´ıvel em: http://www.datasus.gov.br

S´ erie espec´ıfica ou categ´ orica ´ a s´erie em que os dados s˜ E ao agrupados de acordo com categorias ou esp´ecies, permanecendo constantes a ´epoca e o local. Exemplo: UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

19


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

TABELA 10 Notifica¸c˜oes de ´obitos ao SIM. Brasil, 2011* Causa Algumas doen¸cas infecciosas e parasit´ arias Neoplasias (tumores) Doen¸cas do sangue Doen¸cas end´ ocrinas nutricionais e metab´ olicas Transtornos mentais e comportamentais Doen¸cas do sistema nervoso Doen¸cas do olho e anexos Doen¸cas do ouvido e da ap´ ofise mast´ oide

N´ umero de o ´bitos 49.175 184.384 6.344 73.929 13.725 26.948 23 150

Fonte: SIM-CGIAE/SVS/MS. Dispon´ıvel em: http://www.datasus.gov.br * Informa¸co ˜es parciais

S´ erie de dupla entrada ou tabela de contigˆ encia ´ a s´erie que ´e constitu´ıda da conjuga¸c˜ao ou jun¸c˜ao de uma ou mais s´eries. E ´ u E ´til para mostrar dois ou mais tipos de vari´ aveis em rela¸c˜ao a um item. Deve ser lida na vertical e na horizontal simultaneamente para que as linhas e as colunas sejam relacionadas.

TABELA 11 Notifica¸co˜es de ´obitos ao SIM. Brasil, 2007 a 2011* Causa Algumas doen¸cas infecciosas e parasit´ arias Neoplasias (tumores) Doen¸cas do sangue Doen¸cas end´ ocrinas nutricionais e metab´ olicas Transtornos mentais e comportamentais Doen¸cas do sistema nervoso Doen¸cas do olho e anexos Doen¸cas do ouvido e da ap´ ofise mast´ oide

2007 45.945 161.491 5.719 61.860 10.948 20.413 26 118

Ano 2009 47.010 172.256 6.011 66.984 11.861 23.018 23 125

2008 47.295 167.677 5.825 64.631 11.852 21.609 39 125

2010 48.823 178.990 6.284 70.276 12.759 25.303 31 125

2011 49.175 184.384 6.344 73.929 13.725 26.948 23 150

Fonte: SIM-CGIAE/SVS/MS. Dispon´ıvel em: http://www.datasus.gov.br * Informa¸co ˜es parciais

5.1.2

Constru¸ c˜ ao de tabelas de distribui¸ c˜ ao de frequˆ encias

Quando a vari´ avel for qualitativa A constru¸c˜ ao consiste na organiza¸c˜ao dos dados com as suas respectivas frequˆencias absolutas. A primeira coluna da tabela conter´ a informa¸c˜oes a respeito da vari´avel (os dados observados) e na segunda coluna ser´ a apresentada as frequˆencias com que aparecem os dados. Exemplo: O Congresso de Homeopatia, realizado na cidade de Alfenas-MG em 2014, usou um question´ ario para perguntar aos participantes como eles avaliam a organiza¸c˜ao, a recep¸c˜ao, os temas das palestras, o coffee break, os minicursos e os anais. Cada vari´avel foi avaliada de acordo com uma escala que varia de excelente (E), ´ otimo (O), bom (B), m´edio (M) e fraco (F). Confeccione uma tabela para representar as respostas dos dados coletados sobre a organiza¸c˜ao de 30 participantes que participaram da pesquisa:

B O E

B F F

O B B

E O M

M E F

M O B

F M M

F M O

O B E

B B B

Os dados coletados podem ser organizados conforme ´e apresentado na Tabela 12. 20

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

TABELA 12 Avalia¸c˜ ao do Congresso de Homeopatia, Alfenas-MG, 2014 Escala N´ umero de Participantes Excelente 4 ´ Otimo 6 Bom 9 M´edio 6 Fraco 5 Total 30

Quando a vari´ avel for quantitativa discreta A distribui¸c˜ ao de frequˆencia para dados discretos ´e uma s´erie que possui uma coluna para as classes e outra coluna para as frequˆencias. As classes (1a coluna da tabela) s˜ao formadas por n´ umeros inteiros, n˜ ao possuem divis˜ oes, representam o valor observado na vari´avel estudada. As frequˆencias representam o n´ umero de vezes que o valor da classe aparece no conjunto de dados. Por´em, quando se tem uma vari´ avel quantitativa discreta que apresenta muitas observa¸c˜oes, levando a um n´ umero grande de classes, ´e mais racional realizar o agrupamento dos valores em v´arios intervalos de classe. Exemplo: Numa fila de um PSF da cidade Gama foram entrevistados 50 casais durante os meses abril e maio de 2010 (dados fict´ıcios). O objetivo da pesquisa era descobrir o n´ umero de filhos por casal. O resultado da pesquisa est´ a apresentado abaixo, sendo os dados dispostos conforme foram coletados (dados brutos), da esquerda para `a direira, seguindo-se pelas linhas como se lˆe um texto. 2 6 1 3 3

3 1 4 1 0

0 1 1 3 4

2 4 3 5 1

1 0 1 7 2

1 1 7 1 2

1 5 6 3 1

3 6 2 1 2

2 0 0 1 3

5 2 1 0 2

Os dados como s˜ ao apresentados anteriormente s˜ao denominados de dados brutos, ou seja, s˜ ao aqueles que n˜ ao foram numericamente organizados, est˜ao na forma como foram coletados. Para iniciar a tabula¸c˜ ao ´e necess´ ario ordenar os dados, em ordem crescente ou decrescente. Os dados ordenados s˜ ao chamados de rol. Assim, para os dados anteriores: 0 1 1 2 4

0 1 1 3 4

0 1 2 3 5

0 1 2 3 5

0 1 2 3 5

0 1 2 3 6

1 1 2 3 6

1 1 2 3 6

1 1 2 3 7

1 1 2 4 7

Por ter poucas categorias e n˜ ao ter valores diversos pode-se agrupar os dados de acordo com a frequˆencia, conforme ´e apresentado na Tabela 13:

TABELA 13 N´ umero de filhos de 50 casais entrevistados numa fila de um PSF, Cidade Gama, abril-maio de 2010* N´ umero de Filhos N´ umero de Casais 0 6 1 16 2 9 3 8 4 3 5 3 6 3 7 2 Total 50 * Dados fict´ıcios

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

21


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

Quando a vari´ avel for quantitativa cont´ınua Numa distribui¸c˜ ao de frequˆencia para dados cont´ınuos as classes (1a coluna da tabela) s˜ ao formadas por intervalos de valores agrupados definidos de alguma forma. As frequˆencias representam o n´ umero de valores que est˜ ao compreendidos em cada intervalo (classe). A constru¸c˜ao desta tabela n˜ao ´e padronizada, a maioria das vezes fica mais a cargo do pesquisador (pela experiˆencia) do que por meio de algoritmos. Tamb´em pode acontecer de a vari´avel estudada ser discreta, mas o n´ umero de valores observados ser muito grande ou estes valores apresentarem muito diversos. Para este caso as classes formadas por intervalos evitar´ a tabelas com grande extens˜ao, a n˜ao interpreta¸c˜ao dos valores do fenˆomeno e, tamb´em, classes com valores nulos. N˜ ao existe uma regra u ´nica para constru¸c˜ao da tabela de distribui¸c˜ao de frequˆencia, mas ´e importante que a distribui¸c˜ ao conte com um n´ umero adequado de classes. Se o n´ umero de classes for excessivamente pequeno acarretar´ a perda de detalhe e pouca informa¸c˜ao se poder´a extrair da tabela. Por outro lado, se for utilizado um n´ umero excessivo de classes, haver´a alguma classe com frequˆencia nula ou muito pequena, n˜ ao atingindo o objetivo da classifica¸c˜ao que ´e tornar o conjunto de dados supervision´ aveis. Procedimentos que ser˜ ao adotados para constru¸c˜ao de uma tabela de distribui¸c˜ao de frequˆencias para vari´ aveis quantitaticas cont´ınuas9 : • Ordenar os valores • Determinar o n´ umero de classes10 k: a) k entre 5 e 20 classes, conforme a familiaridade do pesquisador com os dados; √ umero de dados11 . b) k = n quando n ≤ 100 e k = 5 × log n quando n > 100, sendo n o n´ c) k = 1 + 3,222 × log n, em que n representa o n´ umero de dados; • Determinar o intervalo das classes c: Se adotar as duas u ´ltimas maneiras de determinar k, c ´e dado por: c=

A k−1

Em que: c: ´e o intervalo ou amplitude da classe; A: amplitude total, dada pela diferen¸ca entre a maior e menor observa¸c˜oes; k: n´ umero de classes. • Determinar o limite inferior da primeira classe LI1 : LI1 = menor observa¸c˜ao −

c 2

• Determinar o limite superior da primeira classe LS1 : LS1 = LI1 + c • Determinar os demais limites inferiores e superiores das outras classes at´e a classe k: LI2 = LS1

LS2 = LI2 + c

LI3 = LS2

LS3 = LI3 + c

LI4 = LS3

LS4 = LI4 + c

.. . LIk = LSk−1

.. . LSk = LIk + c

9 E tamb´ em para a quantitativa discreta quando apresentar muitos valores ou valores dispersos 10 N˜ ao existe um consenso sobre como determinar o n´ umero de classes e o intervalo das classes 11 Esta ser´ a a f´ ormula adotada em todas as situa¸co ˜es

22

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

As frequˆencias representam os valores contidos nos intervalos determinados pelos limites inferiores e superiores de cada classe de modo que sejam ≥ LIi e < LSi . Nesse material as classes ser˜ ao definidas por LIi ` LSi . Exemplo: Considere a vari´ avel quantitativa discreta “N´ umero de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010”. Observe que a vari´avel ´e discreta, mas por conter valores diversos as classes ser˜ ao compostas por intervalos de valores. 8 18 38 11 10 44 28 19 12 9

24 15 79 17 6 17 41 7 40 16

46 30 15 9 92 9 42 28 25 31

13 24 62 35 16 30 35 23 7 30

38 20 23 23 15 26 35 29 32

54 8 13 22 23 18 42 29 34

44 24 62 37 37 37 71 58 22

20 18 18 36 36 43 50 77 7

17 9 8 8 8 14 52 72 44

14 10 22 13 13 9 17 34 15

Os dados anteriores s˜ ao brutos. Portanto, ´e necess´ario orden´a-los (rol) de alguma forma. Assim: 6 9 13 16 20 24 30 37 44 72

6 9 13 17 20 24 31 37 44 77

7 9 14 17 22 25 32 38 46 79

7 9 14 17 22 26 34 38 50 92

7 10 14 17 22 28 34 40 52

8 10 15 18 23 28 34 41 54

8 11 15 18 23 29 35 42 58

8 12 15 18 23 29 35 42 62

8 13 15 18 23 30 35 43 62

9 13 16 19 24 30 36 44 71

Agora, calcula-se o n´ umero de classes: √ k = 94 = 9,69 ≈ 10 Como k representa o n´ umero de classes, logo tem que ser um valor inteiro, assim ser´a adotado k = 10, mas poderia ser k = 9. Como k = 10 sabe-se que a tabela de distribui¸c˜ao de frequˆencias ter´a 10 classes, ou seja, 10 intervalos de valores. O tamanho de cada intervalo, amplitiude da classe, ´e dado por c, assim: c=

A 92 − 6 = = 9,56 k−1 10 − 1

Como os valores (dados) s˜ ao n´ umeros inteiros n˜ao justifica trabalhar com casas decimais, podendo ser adotado c = 10 desde de que ao final da constru¸c˜ao da tabela se observe que todos os valores foram agrupados nas k = 10 classes. O pr´ oximo c´ alculo ´e a determina¸c˜ao dos limites de cada classe. O limite inferior da primeira classe LI1 ´e determinado por: c LI1 = menor observa¸c˜ao − 2 Logo, 10 LI1 = 6 − =1 2 O limite superior da primeira classe LS1 ´e calculado por: LS1 = LI1 + c LS1 = 1 + 10 = 11 Os demais limites at´e a 10a classe, s˜ao:

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

23


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

Classe a

2

3a 4a 5a 6a 7a 8a 9a 10a

Limite inferior LI2 = LS1 LI2 = 11 LI3 = LS2 LI3 = 21 LI4 = LS3 LI4 = 31 LI5 = LS4 LI5 = 41 LI6 = LS5 LI6 = 51 LI7 = LS6 LI7 = 61 LI8 = LS7 LI8 = 71 LI9 = LS8 LI9 = 81 LI9 = LS8 LI9 = 91

Limite superior LS2 = LI2 + c LS2 = 11 + 10 = 21 LS3 = LI3 + c LS3 = 21 + 10 = 31 LS4 = LI4 + c LS4 = 31 + 10 = 41 LS5 = LI5 + c LS5 = 41 + 10 = 51 LS6 = LI6 + c LS6 = 51 + 10 = 61 LS7 = LI7 + c LS7 = 61 + 10 = 71 LS8 = LI8 + c LS8 = 71 + 10 = 81 LS9 = LI9 + c LS9 = 81 + 10 = 91 LS9 = LI9 + c LS9 = 91 + 10 = 101

Ap´ os realizar todas as opera¸c˜ oes, monta-se a tabela de distribui¸c˜ao de frequˆencias sendo a primeira coluna composta pelas classes e a segunda coluna composta pelas frequˆencias (n´ umero de valores contidos no intervalo determinado nas classes). O resultado de toda esta opera¸c˜ao ´e apresentado na Tabela 15. TABELA 15 N´ umero de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010 N´ umero de atendimentos 1 ` 11 11 ` 21 21 ` 31 31 ` 41 41 ` 51 51 ` 61 61 ` 71 71 ` 81 81 ` 91 91 ` 101 Total

N´ umero de dias 16 25 19 15 09 03 02 04 00 01 94

Fonte: Dados fict´ıcios

5.1.3

Tipos de distribui¸ c˜ ao de frequˆ encias

A tabela de distribui¸c˜ ao de frequˆencias constru´ıda anteriormente ´e denominada de tabela de distribui¸c˜ ao de frequˆencias simples absolutas. Al´em dessa classifica¸c˜ao, as tabelas de distribui¸c˜ao de frequˆencias, podem ser:    Simples Absolutas   Relativas     Absolutas   Tipos de frequˆencias  Crescentes   Relativas Acumuladas   Absolutas       Decrescentes Relativas Distribui¸ c˜ ao de frequˆ encias simples a) Frequˆ encia simples absoluta: ´e o n´ umero de repeti¸c˜oes de um valor individual ou de uma classe de valores da vari´ avel estudada. Exemplo: Na Tabela 15 cada frequˆencia f i, i = 1, . . . , 9, representa o n´ umero de valores que est˜ ao em cada classe. 24

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

b) Frequˆ encia simples relativa: representa a propor¸c˜ao de observa¸c˜oes de um valor individual ou de uma classe em rela¸c˜ ao ao n´ umero total de observa¸c˜oes. Para calcular a frequˆencia relativa ´ basta dividir a frequˆencia absoluta da classe ou do valor individual pelo n´ umero total de observa¸c˜oes. E um valor importante para compara¸c˜ oes. fi f ri = n Em que: f ri : frequˆencia simples relativa da classe i, i = 1, . . . , k; fi : frequˆencia simples absoluta da classe i, i = 1, . . . , k; n: n´ umero de observa¸c˜ oes. Exemplo: Com os dados obtidos na Tabela 15 tem-se a seguinte tabela de distribui¸c˜ao de frequˆencias relativas:

TABELA 16 Valores relativos de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010 N´ umero de atendimentos N´ umero de dias 1 ` 11 0,1702 11 ` 21 0,2660 21 ` 31 0,2021 31 ` 41 0,1596 41 ` 51 0,0957 51 ` 61 0,0319 61 ` 71 0,0213 71 ` 81 0,0426 81 ` 91 0,0000 91 ` 101 0,0106 Total 1,0000 Fonte: Dados fict´ıcios

Cada frequˆencia relativa foi calculada por: f r1 = f r2 = f r3 = f r4 = f r5 =

16 94 25 94 19 94 15 94 09 94

= 0,1702 = 0,2660 = 0,2021 = 0,1596 = 0,0957

03 = 0,0319 94 02 = 0,0213 f r7 = 94 04 = 0,0426 f r8 = 94 00 f r9 = = 0,0000 94 01 f r10 = = 0,0106 94 f r6 =

Para expressar os resultados em termos percentuais, multiplica-se o quociente obtido por 100: f pi = f ri × 100% Importante: para fins de an´ alises matem´aticas todas as observa¸c˜oes contidas num intervalo de classe ser˜ ao consideradas iguais ao ponto m´edio da classe. Essa hip´otese ´e a hip´otese tabular b´asica (HTB). O ponto m´edio da classe i ´e dado por: LIi + LSi X¯i = 2 Em que: X¯i : ´e o ponto m´edio da classe i; LIi e LSi : s˜ ao, respectivamente, o limite inferior e superior da classe i. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

25


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

Distribui¸ c˜ ao de frequˆ encias acumuladas a) Frequˆ encias acumuladas crescentes absolutas: tamb´em denominada de distribui¸c˜ ao ´ de frequˆencia absoluta acumulada abaixo de. E a frequˆencia total de todos os valores inferiores ao limite superior de um dado intervalo de classe. b) Frequˆ encias acumuladas decrescentes absolutas: tamb´em denominada de frequˆencia ´ a frequˆencia total de todos os valores superiores ao limite inferior de absoluta acumulada acima de. E um dado intervalo de classe. As frequˆencias relativas em cada caso s˜ao obtidas por meio da divis˜ao de cada frequˆencia acumulada pelo total de observa¸c˜ oes. 5.1.4

Exerc´ıcios

1. No Pronto Socorro Santa Casa (2012), foi contabilizado o n´ umero de pessoas que foram atendidas na emergˆencia por acidente de carro em 20 grupos de 100 pessoas cada. Os dados obtidos foram: 9, 10, 10, 8, 12, 11, 8, 11, 7, 9, 10, 10, 9, 11, 9, 10, 10, 10, 9, 10. Construa uma tabela de distribui¸c˜ao de frequˆencias. 2. Dez alunos da UNIFAL-MG/Alfenas (2014/1) foram selecionados e se submeteram a um exame de sangue apresentando os seguintes valores de glicemia em mg/dL: 80, 60, 68, 79, 62, 76, 70, 78, 78, 77. Monte uma tabela de distribui¸c˜ ao de frequˆencias. 3. Foi realizada uma pesquisa a qual tinha por objetivo conhecer a altura dos estudantes do sexo masculino (em metros) da Faculdade X, 2010. Os dados s˜ao os apresentados abaixo: 1,70 1,70 1,70 1,70 1,70 1,70 1,70 1,71 1,71 1,71

1,71 1,71 1,71 1,72 1,72 1,72 1,72 1,72 1,72 1,72

1,72 1,72 1,72 1,72 1,72 1,72 1,73 1,73 1,73 1,73

1,73 1,73 1,73 1,73 1,73 1,74 1,74 1,74 1,74 1,74

1,74 1,74 1,74 1,75 1,75 1,75 1,75 1,75 1,75 1,75

1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75 1,75

1,76 1,76 1,76 1,76 1,76 1,76 1,76 1,76 1,77 1,77

1,77 1,77 1,77 1,77 1,78 1,78 1,78 1,78 1,78 1,78

1,78 1,78 1,78 1,78 1,78 1,79 1,79 1,79 1,79 1,79

1,79 1,79 1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,80

1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,80 1,80

1,80 1,80 1,82 1,82 1,82 1,82 1,83 1,83 1,83 1,83

1,83 1,83 1,83 1,84 1,84 1,84 1,85 1,85 1,85 1,85

1,85 1,85 1,85 1,86 1,87 1,90 1,90 1,90 1,90 1,90

1,95 2,00

Monte uma tabela com a distribui¸c˜ ao de frequˆencias absolutas, relativas e percentuais. 5.1.5

Gr´ aficos

A representa¸c˜ ao gr´ afica ´e outro recurso que tem por objetivo dar uma ideia, a mais imediata poss´ıvel, do comportamento dos dados, proporcionando maior facilidade na compreens˜ao, para chegar a conclus˜ oes sobre o comportamento do fenˆ omeno em estudo. Um gr´ afico deve ter, dentre outras, as seguintes caracter´ısticas: . Clareza: possibilita a leitura e interpreta¸c˜oes correta dos valores do fenˆomeno; / Simplicidade: possibilita a an´ alise r´ apida do fenˆomeno observado. Evita-se perder com particularidades sem importˆ ancia; 0 Veracidade: indispens´ avel, pois, se o gr´ afico n˜ao representar uma realidade, perde sua finalidade. Classifica¸c˜ ao quanto ` a forma: a) Diagramas: gr´ aficos geom´etricos dispostos em duas dimens˜oes. S˜ao mais usados na representa¸c˜ao de s´eries estat´ısticas. b) Cartogramas: ´e a representa¸c˜ ao sobre uma carta geogr´afica, sendo muito usado na Geografia, Hist´oria e Demografia. c) Estereogramas: representam volumes e s˜ao apresentados em trˆes dimens˜oes. d) Pictogramas: a representa¸c˜ ao gr´ afica que consta de figuras representativas do fenˆomeno. Desperta logo a aten¸ca˜o do p´ ublico. Classifica¸c˜ ao quanto ao objetivo: a) Gr´ aficos de informa¸c˜ ao - o objetivo ´e proporcionar uma visualiza¸c˜ao r´apida e clara da intensidade das categorias ou dos valores relativos ao fenˆ omeno. S˜ao gr´aficos tipicamente expositivos, devendo ser o mais completo poss´ıvel, dispensando coment´ arios explicativos. Caracter´ısticas: - deve conter t´ıtulo; - as legendas podem ser omitidas, desde que as informa¸c˜oes presentes possibilitem a interpreta¸c˜ao do gr´ afico. b) Gr´ aficos de an´ alise - estes gr´ aficos fornecem informa¸c˜oes importantes na fase de an´alise dos dados, 26

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

sendo tamb´em informativos. Os gr´ aficos de an´alise, geralmente, vˆem acompanhados de uma tabela e um texto onde se destacam os pontos principais revelados pelo gr´afico ou pela tabela. S˜ ao v´ arias as op¸c˜ oes de representa¸c˜ao gr´afica, dentre as quais pode-se citar: os gr´aficos de colunas, de linhas, de barras etc. Gr´ afico em linha Os gr´ aficos lineares s˜ ao usados frequentemente para a representa¸c˜ao de s´eries temporais. Para constru´ı-lo, basta marcar os pontos e uni-los por meio de segmentos de reta, formando uma poligonal. Considerando os dados apresentados na Tabela 8, pode-se represent´a-los graficamente segundo a Figura 9:

80000

Número de óbitos

75000 70000 65000 60000 55000 50000 2005

2006

2007

2008

2009

2010

2011

Anos

FIGURA 9 N´umero de notifica¸co˜es de o´bitos ao SIM, por doen¸cas end´ocrinas nutricionais e metab´olicas. Brasil, 2005 a 2011

Gr´ afico em colunas Os gr´ aficos em colunas tornam poss´ıveis as compara¸c˜oes das grandezas, representando-as por meio de retˆ angulos de mesma base e alturas proporcionais `as respectivas grandezas. Estes gr´aficos s˜ ao mais utilizados, quando as inscri¸c˜ oes a serem inseridas sob os retˆangulos forem curtas. As orienta¸c˜ oes para constru¸c˜ ao de um gr´afico em colunas s˜ao: a) os retˆ angulos s´ o diferem no comprimento, e n˜ao na base, a qual ´e atribu´ıda; b) os retˆ angulos devem ser separados por espa¸cos, um dos outros, sendo estes todos iguais, mas n˜ ao devem ser menores do que a metade da base dos retˆangulos; c) os retˆ angulos devem ser desenhados, observando-se a ordem de grandeza, para facilitar a leitura e a an´ alise comparativa dos valores. Entretanto, se a s´erie representada for temporal, os dados a serem dispostos no eixo horizontal devem ser colocados em ordem crescente de tempo. Observa¸ c˜ ao: O espa¸co entre as colunas pode variar de 1/3 a 2/3 do tamanho da base da coluna. As informa¸c˜ oes apresentadas na Tabela 9 podem ser visulizadas na Figura 10: 160 Número de internações

140 120 100 80 60 40 20 0 Sudeste

Nordeste

Centro-Oeste

Sul

Norte

Regiões

FIGURA 10 Interna¸co˜es por acidente de trˆansito segundo a Unidade de Federa¸ca˜o, faixa et´aria de 25 a 29 anos, nov-2013

Gr´ afico em barras Os gr´ aficos em barras tˆem a mesma finalidade que os gr´aficos em colunas, sendo prefer´ıveis estes, quando as inscri¸c˜ oes a serem inseridas forem longas. S˜ao mais usados para representar s´eries espec´ıficas, UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

27


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

com uma u ´nica diferen¸ca que ´e a posi¸c˜ ao em que est˜ao dispostos os retˆangulos, na horizontal. As alturas dos retˆ angulos s˜ ao iguais e arbitr´ arias e os comprimentos s˜ao proporcionais aos respectivos dados. As barras devem ser separadas uma das outras pelo mesmo espa¸co de forma que as inscri¸c˜oes identifiquem as diferentes barras. O espa¸co entre as barras pode ser a metade (1/2) ou dois ter¸cos (2/3) de suas larguras. As barras devem ser colocadas em ordem de grandeza de forma decrescente para facilitar a compara¸c˜ ao dos valores. A categoria “outros” (quando existir) ´e representada na barra inferior, mesmo que o seu comprimento exceda o de alguma outra. Os dados da Tabela 10 s˜ ao apresentados graficamente como pode ser visualizado na Figura 11:

Neoplasias (tumores) Doenças endócrinas nutricionais e metabólicas Algumas doenças infecciosas e parasitárias Doenças do sistema nervoso Transtornos mentais e comportamentais Doenças do sangue Doenças do ouvido e da apófise mastóide Doenças do olho e anexos 0

40000

80000

120000

160000

200000

Número de óbitos

FIGURA 11 Notifi¸co˜es de o´bitos ao SIM. Brasil, 2011

Gr´ afico em colunas compostas Este tipo de gr´ afico ´e apropriado para comparar diversas quantidades agrupadas. Este gr´afico consiste em colunas duplas ou superpostas e dispostas sem espa¸co entre si. Ele proporciona economia de espa¸co, sendo mais indicado quando a s´erie apresenta um n´ umero significativo de categorias. Para exemplificar, ser´ a constru´ıdo um gr´afico com os dados apresentados pela Tabela 11, apresentado na Figura 12

160000

120000

80000

40000

0 2007

2008

2009

2010

2011

Algumas doenças infecciosas e parasitárias

Neoplasias (tumores)

Doenças do sangue

Doenças endócrinas nutricionais e metabólicas

Transtornos mentais e comportamentais

Doenças do sistema nervoso

Doenças do olho e anexos

Doenças do ouvido e da apófise mastóide

FIGURA 12 Notifi¸co˜es de o´bitos ao SIM. Brasil, 2007 a 2011 28

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

Gr´ afico em setores ´ a representa¸c˜ E ao gr´ afica de uma s´erie estat´ıstica em um c´ırculo de raio qualquer, por meio de setores com ˆ angulos centrais proporcionais `as ocorrˆencias. Para constru´ı-lo, parte-se do princ´ıpio de que o n´ umero total de valores observados corresponde ao total de graus de uma circunferˆencia: 360o . A area do c´ırculo ser´ ´ a est˜ ao dividida em setores proporcionais aos valores da s´erie. Essa divis˜ao se faz por meio de uma regra de trˆes simples. Com o aux´ılio de um transferidor, efetua-se a marca¸c˜ao dos ˆangulos correspondentes a cada divis˜ ao. ´ utilizado quando se pretende comparar cada valor da s´erie com o total. O gr´afico em setores E representa valores absolutos ou porcentagens complementares. As s´eries geogr´aficas, espec´ıficas e as categorias em n´ıvel nominal s˜ ao mais representadas em gr´aficos de setores, desde que n˜ao apresentem muitas parcelas (no m´ aximo sete). Os dados da Tabela 9 tamb´em podem ser representados por meio do gr´afico de setores (Figura 13): 10; 4%

9; 3%

4; 2%

94; 36%

Sudeste

Nordeste

Centro-Oeste

Sul

Norte 144; 55%

FIGURA 13 Interna¸co˜es por acidente de tr˜ansito segundo a Unidade de Federa¸ca˜o, faixa et´aria de 25 a 29 anos, nov-2013

Histograma e pol´ıgono de frequˆ encias HISTOGRAMA S˜ ao gr´ aficos de superf´ıcies utilizados para representar distribui¸c˜oes de frequˆencias das vari´ aveis quantitativas cont´ınuas (classes formadas por intervalos). O histograma ´e composto por retˆangulos (denominados c´elulas), cada um deles representando o intervalo das classes. A largura da base de cada c´elula deve ser proporcional ` a amplitude do intervalo da classe que ela representa e a ´area de cada c´elula deve ser proporcional ` a frequˆencia da mesma classe. Se todas as classes tiverem igual amplitude, ent˜ ao as alturas dos retˆ angulos ser˜ ao proporcionais `as frequˆencias das classes que eles representam. Exemplo: A Tabela 15 ´e uma tabela de distribui¸c˜ao de frequˆencias, o histograma referente a ela est´ a representado na Figura 14:

FIGURA 14 N´umero de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010 UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

29


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

ˆ POL´IGONO DE FREQUENCIAS ´ o gr´ E afico obtido ao se ligar, por meio de segmentos de retas, os pontos correspondentes aos pontos m´edios das classes com suas respectivas frequˆencias. No in´ıcio e no fim do gr´afico ligamos os pontos nas extremidades dos retˆ angulos para o gr´afico n˜ao ficar “voando”. Exemplo: O histograma apresentado na Figura 14 e o respectivo pol´ıgono de frequˆencias pode ser visualizado na Figura 15:

FIGURA 15 N´umero de pacientes atendidos na Cl´ınica RX de segunda a sexta, durante 94 dias, jan-mai, 2010

Tipos de curvas de frequˆ encias Curvas de frequˆencia aparecem, na pr´atica, sob diversas formas caracter´ısticas, como as indicadas na Figura 16:

a

b1

b2

c1

c2

d

e

f

FIGURA 16 Tipos de frequˆencias a) Curvas de frequˆencia sim´etrica ou em forma de sino: caracterizam-se pelo fato das observa¸c˜oes equidistantes do ponto central m´ aximo ter a mesma frequˆencia. Um exemplo importante ´e a curva normal, Figura 16a. b) Curvas assim´etricas: nestas a cauda da curva de um lado da ordenada m´axima ´e mais longa do que do outro. Se o ramo mais alongado fica a` direita, a curva ´e dita assim´etrica `a direita, ou assim´etrica positiva, exemplo a Figura 16b1. Enquanto que, se ocorre o inverso, diz-se que a curva ´e assim´etrica ` a esquerda, ou assim´etrica negativa, Figura 16b2. c) Curva em forma de J, ou em J invertido: o ponto de ordenada m´axima ocorre em uma das extremidades, Figuras 16c1 e c2, respectivamente. d) Curva em forma de U: a curva possui ordenadas m´aximas em ambas as extremidades: Figura 16d. e) Curva de frequˆencia bimodal: nesta curva h´a dois m´aximos (duas modas), Figura 16e. f) Curva de frequˆencia multimodal: tˆem mais de dois m´aximos, Figura 16f. 30

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

5.1.6

Exerc´ıcios

1. Para dos dados dos dez alunos do exerc´ıcios da se¸c˜ao 5.1.4 construa o histograma e o pol´ıgono de frequˆencia para os dados percentuais. 2. Para os dados de altura dos estudantes do sexo masculino (em metros) da Faculdade X, 2010, apresentados no exerc´ıcio da se¸c˜ ao 5.1.4, confeccione: a) histograma b) pol´ıgono de frequˆencia

5.2

Medidas Estat´ısticas

5.2.1

Medidas de Tendˆ encia Central

As estat´ısticas que caracterizam os valores m´edios s˜ao chamados de medidas de tendˆencia central. Entre as principais medidas de tendˆencia central destacam-se a m´edia aritm´etica, a moda e a mediana. M´ edia ´ um conceito, sem d´ A mais importante medida de loca¸c˜ao ´e a m´edia aritm´etica. E uvida, bastante familiar. Por exemplo, a altura m´edia de um grupo de estudantes, ou a temperatura m´edia em uma cidade em determinado dia, ou a nota m´edia de uma turma de 30 alunos. A m´edia aritm´etica de um conjunto de n observa¸c˜oes x1 , x2 , . . . , xn ´e o quociente da divis˜ao da ´ denotada por x soma dos valores dessas observa¸c˜ oes por n (n´ umero de observa¸c˜oes). E ¯ (leia-se x barra): n X

x ¯=

i=1

n

xi =

x1 + x2 + ... + xn n

Em que: xi : indica a observa¸c˜ ao de ordem i, i = 1, 2, 3, . . . , n. Exemplo: dados os pesos, em quilos, de 10 rec´em-nascidos: 3,3; 3,1; 2,8; 2,7; 2,9; 3,1; 3,2; 3,0; 3,5; 3,4 o peso m´edio ser´ a: x ¯=

31,0 3,3 + 3,1 + 2,8 + 2,7 + 2,9 + 3,1 + 3,2 + 3,0 + 3,5 + 3,4 = = 3,1 kg 10 10

M´ edia Ponderada Em algumas situa¸c˜ oes, os n´ umeros que se quer sintetizar tˆem graus de importˆancia diferentes. Estes graus de importˆ ancia s˜ ao considerados na hora de calcular a m´edia e recebem o nome de pesos. A m´edia ponderada dos n´ umeros x1 , x2 , . . . , xn , com pesos p1 , p2 , ..., pn , representada por x ¯p , ´e definida como: n X xi pi x1 p1 + x2 p2 + ... + xn pn i=1 x ¯p = P = n p1 + p2 + ... + pn pi i=1

A m´edia aritm´etica pode ser considerada como uma m´edia ponderada em que os pesos s˜ao todos iguais a 1. Exemplo 1: A nota final do sistema acadˆemico ´e calculada por meio de uma m´edia ponderada dada por: n X N otai × P esoi M axi i=1 Mf inal = × 10 n X P esoi i=1

Em que: Mf inal : ´e a m´edia final do aluno na disciplina; N otai : ´e a nota atribu´ıda para cada avalia¸c˜ao i da disciplina; UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

31


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

M axi : ´e o valor m´ aximo da avalia¸c˜ ao i; P esoi : ´e a pondera¸c˜ ao (peso) da nota da avalia¸c˜ao i. Considere um professor de certa disciplina, ele aplica 3 provas de valores 30, 40 e 50, cujos pesos s˜ ao 1, 2 e 3, respectivamente. Um aluno obteve 20 (em 30), 10 (em 40) e 40 (em 50). Qual ´e a m´edia final calculada pelo sistema acadˆemico? Resolu¸c˜ ao: 3 X N otai

Mf inal

i=1

=

M axi 3 X

× P esoi

10 40 20 ×1+ ×2+ ×3 40 50 × 10 = 30 × 10 1+2+3

P esoi

i=1

Mf inal

2 1 4 20 + 15 + 72 117 + + ×3 3,9 39 3 2 5 30 × 10 = × 10 = 30 × 10 = × 10 = = 6,5 6 6 6 6 6

=

Exemplo 2: Considere 5 provas aplicadas as quais possuem os seguintes pesos, respectivamente: 1, 2, 3, 4 e 5. Um determinado aluno conseguiu as seguintes notas ordenadas: 40, 50, 80, 90 e 20. A sua m´edia ´e calculada por: 5 P

x ¯p =

pi xi

i=1 5 P

= pi

p1 x1 + p2 x2 + ... + p5 x5 1 · 40 + 2 · 50 + 3 · 80 + 4 · 90 + 5 · 20 = 56 pontos = p1 + p2 + ... + p5 1+2+3+4+5

i=1

Exemplo 3: Suponha que se queira determinar a m´edia de n´ umero de filhos por casal dos dados apresentados na Tabela 13. 8 P

x ¯p =

pi xi

i=1 8 P

= pi

6 · 0 + 16 · 1 + 9 · 2 + 8 · 3 + 3 · 4 + 3 · 5 + 3 · 6 + 2 · 7 = 2,34 filhos 6 + 16 + 9 + 8 + 3 + 3 + 3 + 2

i=1

Para calcular a m´edia quando os dados estiverem agrupados (tabela de distribui¸c˜ao de frequˆencias) e se as classes forem formadas por intervalos ´e necess´ario calcular o ponto m´edio X¯i de cada LIi + LSi classe. Lembre-se que o ponto m´edio ´e calculado por X¯i = . As frequˆencias fi funcionam como 2 ¯ pesos e os pontos m´edios Xi ’s representam os valores que a vari´avel assume (hip´otese tabular b´asica). Considere um experimento em que durante 60 dias anotou-se o n´ umero de cartas entregues, diariamente, em um edif´ıcio residencial. Os resultados s˜ao os apresentados a seguir. Calcule a m´edia de cartas entregues no condom´ınio.

TABELA 17 N´ umero de cartas entregues, diariamente, em um edif´ıcio residencial, durante 60 dias N´ umero de cartas entregues por dia N´ umero de dias 20 ` 30 05 30 ` 40 09 40 ` 50 20 50 ` 60 18 60 ` 70 08 Total 60

A Tabela 18 ir´ a apresentar mais uma coluna referente aos pontos m´edios das classes para facilitar os c´ alculos: 32

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

TABELA 18 N´ umero de cartas entregues, diariamente, em um edif´ıcio residencial, durante 60 dias e o ponto m´edio das classes N´ umero de cartas entregues por dia Ponto m´edio X¯i das classes N´ umero de dias fi 20 ` 30 25 05 30 ` 40 35 09 40 ` 50 45 20 50 ` 60 55 18 60 ` 70 65 08 Total 60

Assim, o n´ umero m´edio de cartas entregues diariamente ´e dado por: k X

x ¯

=

5 X

fi × X¯i

i=1 k X

=

i=1

fi

=

5 X

=

f1 · X¯1 + f2 · X¯2 + f3 · X¯3 + f4 · X¯4 + f5 · X¯5 f1 + f2 + f3 + f4 + f5

fi

i=1

i=1

x ¯

fi × X¯i

25 · 5 + 35 · 9 + 45 · 20 + 55 · 18 + 65 · 8 = 47,5 cartas 5 + 9 + 20 + 18 + 8

Propriedade da m´ edia Dentre outras: • A soma alg´ebrica dos desvios de um conjunto de valores em rela¸c˜ao `a m´edia aritm´etica ´e zero: n X

(xi − x ¯) = 0

i=1

• A soma alg´ebrica dos quadrados dos desvios de um conjunto de valores em rela¸c˜ao `a m´edia aritm´etica ´e m´ınima: n X 2 (xi − x ¯) D= i=1

Vantagens do emprego da m´ edia • Como se faz uso de todos os dados para o seu c´alculo ´e determinada com precis˜ao matem´atica; ´ determinada quando somente o valor total e o n´ • E umero de elementos forem conhecidos. Desvantagens do emprego da m´ edia • N˜ ao pode ser empregada para dados qualitativos; ´ influenciada por valores extremos, podendo, em alguns casos, n˜ao representar a s´erie; • E • Em distribui¸c˜ oes de frequˆencias em que o limite inferior da primeira classe e/ou o limite superior da u ´ltima classe n˜ ao forem definidos, a m´edia n˜ao poder´a ser calculada. Moda Como o pr´ oprio nome indica, ´e o valor que ocorre com maior frequˆencia em um conjunto de valores. Em outras palavras, ´e o valor que est´a na moda. As distribui¸c˜ oes que apresentam uma moda u ´nica s˜ao chamadas de unimodais; quando apresentam duas modas, bimodais e mais de duas modas, multimodais. Existem ainda distribui¸c˜oes que n˜ ao apresentam nenhuma moda: s˜ ao chamadas de amodais. Exemplo: Calcule a moda dos seguintes conjuntos de dados: a) 39; 52; 40; 45; 46; 55; 48; 40; 43; 47; 44 mo = 40 UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

33


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

b) 24; 12; 14; 24; 11; 18; 19; 14; 18; 32; 24; 22; 24; 18; 36; 18; 12; 24; 20; 34 mo = 24 c) 1, 1, 2, 2, 3, 3 mo = @ (n˜ ao tem moda) d) 100, 121, 202, 1022, 1500 mo = @ (n˜ ao tem moda)

Moda para dados agrupados Quando os dados est˜ ao agrupados em distribui¸c˜oes de frequˆencias em que as classes n˜ao s˜ ao formadas por intervalos, n˜ ao existe uma f´ormula matem´atica para o c´alculo da moda, ficando pois, a cargo do pesquisador identificar o elemento que apresentar o maior n´ umero de ocorrˆencias. Esse valor ser´ a o valor modal. Por exemplo, na Tabela 12 a moda ´e Bom e na Tabela 13 a moda ´e 1 filho. Para dados agrupados em distribui¸c˜ao de frequˆencias cujas classes s˜ao formadas por intervalos, o m´etodo mais empregado para o c´ alculo da moda ´e o m´etodo de Czuber, cuja f´ormula ´e definida por: ∆1 Cmo mo = LImo + ∆1 + ∆ 2 Em que: LImo : limite inferior da classe modal; ∆1 : diferen¸ca entre a frequˆencia absoluta da classe modal e a classe anterior; ∆2 : diferen¸ca entre a frequˆencia absoluta da classe modal e a classe posterior; Cmo : amplitude da classe modal. Exemplo: Durante 60 dias anotou-se o n´ umero de cartas entregues, diariamente, em um edif´ıcio residencial. Os resultados foram apresentados na Tabela 17. Calcule o valor mais frequente, ou seja, o n´ umero modal de cartas entregues. Solu¸c˜ ao: A classe de maior frequˆencia ´e a 3a classe. O limite inferior da classe modal ´e igual 40 A diferen¸ca entre a frequˆencia absoluta da classe modal e a classe anterior ´e: 20 − 9 = 11 A diferen¸ca entre a frequˆencia absoluta da classe modal e a classe posterior ´e: 20 − 18 = 2 A amplitude da classe modal ´e: 50 − 40 = 10 Substituindo estes valores na f´ ormula abaixo, ∆1 11 mo = LImo + Cmo = 40 + 10 = 48,46 cartas ∆1 + ∆ 2 11 + 2 Vantagens do emprego da moda ´ de uso pr´ • E atico. Exemplificando: os empregados geralmente adotam a referˆencia modal de sal´ario, ou seja, o sal´ ario recebido por muitos outros empregados. Tamb´em, carros e roupas s˜ao produzidos tomando como referˆencia o tamanho modal; • A moda geralmente ´e um valor verdadeiro e, por conseguinte, pode mostrar-se mais real e coerente. Desvantagens do emprego da moda • N˜ ao inclui todos os valores de uma distribui¸c˜ao; • Mostra-se ineficiente quando a distribui¸c˜ao ´e largamente dispersa. Mediana Sejam x1 ≤ x2 ≤ . . . ≤ xn os n valores ordenados de uma vari´avel qualquer. A mediana ´e o valor que centra a distribui¸c˜ ao do conjunto de valores, ou seja, que divide este conjunto de valores ordenados em duas partes de frequˆencias iguais. Ap´ os ordenados os dados, para encontrar a mediana primeiro determina a sua posi¸c˜ao, depois busca-se o valor correspondente. 34

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

Para dados n˜ ao agrupados, a mediana ´e calculada por:  N´ umero ´ımpar de dados : x( n+1 )   2  md = x( n ) + x( n +1)   2 2  N´ umero par de dados : 2 Em que: x( n+1 ) : ´e o elemento (valor) que ocupa a n+1 esima posi¸c˜ao no conjunto ordenado dos dados; 2 -´ 2 x( n ) : ´e o elemento (valor) que ocupa a n2 -´esima posi¸c˜ao no conjunto ordenado dos dados; 2 x( n +1) : ´e o elemento (valor) que ocupa a n2 + 1 -´esima posi¸c˜ao no conjunto ordenado dos dados. 2 Exemplo: Calcule a mediana dos seguintes conjuntos de dados: a) 39; 52; 40; 45; 46; 55; 48; 40; 43; 47; 44 1o ) Ordene os dados: 39; 40; 40; 43; 44; 45; 46; 47; 48; 52; 55 2o ) Como h´ a n´ umero ´ımpar de dados, a mediana corresponde ao valor: x( n+1 ) = x( 11+1 ) = x(6) 2 2 O n´ umero correspondente a x6 ´e o 45. Logo a md = 45. b) 2,4; 1,2; 1,4; 2,4; 1,1; 1,8; 1,9; 1,4; 1,8; 3,2; 2,4; 2,2; 2,4; 1,8; 3,6; 1,8; 1,2; 2,4; 2,0; 3,4 1o ) Ordene os dados: 1,1; 1,2; 1,2; 1,4; 1,4; 1,8; 1,8; 1,8; 1,8; 1,9; 2,0; 2,2; 2,4; 2,4; 2,4; 2,4; 2,4; 3,2; 3,4; 3,6 2o ) Como h´ a n´ umero par de dados, a mediana corresponde ao valor da m´edia entre os valores centrais: x( n ) + x( n +1) 2

2

2

=

x( 20 ) + x( 20 +1) 2

2

2

=

x(10) + x(11) 1,9 + 2,0 = = 1,95 2 2

Logo a md = 1,95. Para dados agrupados numa tabela de distribui¸c˜ao de frequˆencias em que as classes s˜ao formadas por intervalos, a mediana ´e calculada por: n − FA md = LImd + 2 Cmd Fmd Em que: LImd : limite inferior da classe mediana; FA : frequˆencia acumulada das classes anteriores `a classe mediana; Fmd : frequˆencia absoluta da classe mediana; Cmd : amplitude da classe mediana. Para localizar a classe mediana faz-se a conta12 n · 0,50, independentemente de n ser par ou ´ımpar. Depois, compara-se o valor de n · 0,50 com os valores da frequˆencia absoluta acumulada crescente (f ac) at´e a classe em que a frequˆencia acumulada seja maior ou igual a n · 0,50, quando isto acontecer, esta ´e a classe mediana. A f ac ´e calculada em cada classe acumulando-se as frequˆencias anteriores at´e chegar a u ´ltima classe. Exemplo: Considerando os dados apresentados na Tabela 17, calcule a mediana. Solu¸c˜ ao: k=5 P n = 60, pois fi = 60 i=1

A classe mediana ser´ a obtida considerando n · 0,50 = 60 · 0,50 = 30. Assim, fazendo alguns c´alculos preliminares, que podem ser realizados mentalmente, chega-se `a conclus˜ao qual ´e a classe mediana.

12

´ o mesmo que n/2 E

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

35


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

TABELA 19 C´ alculos auxiliares: compara¸c˜ao entre n/2 e f ac e localiza¸c˜ao da classe mediana N´ umero de cartas N´ umero de Frequˆencia absoluta acuCompara¸c˜ao n · 0,50 entregues por dia dias fi mulada crescente (f ac) e f ac 20 ` 30 05 05 5 ´e maior ou igual a 30? N˜ao! 30 ` 40 09 14 14 ´e maior ou igual a 30? N˜ao! 40 ` 50 20 34 34 ´e maior ou igual a 30? Sim! 50 ` 60 18 52 60 ` 70 08 60 Total 60

Na terceira classe a resposta foi sim, logo esta ´e classe mediana cujo limite inferior ´e 40. A frequˆencia absoluta da classe mediana ´e: 20 A frequˆencia acumulada das classes anteriores `a classe mediana (1a e 2a classes) ´e: 5 + 9 = 14. A amplitude da classe mediana ´e: 50 − 40 = 10. Substituindo estes valores na f´ ormula abaixo, 60 n 2 − FA 2 − 14 Cmd = 40 + 10 = 48 cartas md = LImd + Fmd 20 Vantagens do emprego da mediana • N˜ ao depende de todos os valores do conjunto de dados, podendo mesmo n˜ao se alterar com a modifica¸c˜ ao; • N˜ ao ´e influenciada por valores extremos do conjunto de dados; ´ utilizada nos casos de distribui¸c˜ • E oes assim´etricas. Desvantagens do emprego da mediana • Quando h´ a valores repetidos, a interpreta¸c˜ao do valor mediano n˜ao ´e t˜ao simples. • Inadequacidade da sua express˜ ao para o manejo matem´atico. Propriedades da m´ edia, moda e mediana Sejam X e Y duas vari´ aveis e k uma constante qualquer. • Se X = Y ± k, ent˜ ao: x ¯ = y¯ ± k

mo(x) = mo(y) ± k

md(x) = md(y) ± k

mo(x) = mo(y) · k

md(x) = md(y) · k

• Se X = Y · k, ent˜ ao: x ¯ = y¯ · k

Rela¸ c˜ ao entre m´ edia, moda e mediana A melhor medida de tendˆencia central de um conjunto de dados depende frequentemente do modo pelo qual os valores est˜ ao distribu´ıdos: Se s˜ ao sim´etricos e unimodais: a m´edia, a mediana e a moda deveriam ser aproximadamente as mesmas (Figura 17a). Se s˜ ao sim´etricos e bimodais: a m´edia e a mediana seriam, mais uma vez, aproximadamente as mesmas. Nesse caso a m´edia e a mediana estariam entre os dois picos e seria, portanto, uma medida improv´ avel de ocorrer. Indica que os seus dados possuem dois subgrupos distintos que diferem na caracter´ıstica medida; nessa situa¸c˜ ao seria melhor adotar as duas modas ou tratar os dois subgrupos separadamente. Exemplo: Figura 16e. Se n˜ ao s˜ ao sim´etricos: a mediana, frequentemente, ´e a melhor medida de tendˆencia central (Figuras 17b e 17c). 36

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

a

b

c

FIGURA 17 Rela¸c˜ao entre m´edia, mediana e moda 5.2.2

Exerc´ıcios

1. O desvio em rela¸c˜ ao ` a m´edia ´e dado pela diferen¸ca da observa¸c˜ao i pela m´edia artim´etica das obser´ calculado por: di = xi − x va¸c˜ oes. E ¯. O desvio em rela¸c˜ao `a m´edia n˜ao ´e o mesmo que desvio padr˜ao. Ele indica o quanto o valor est´ a afastado da m´edia dos dados. Considere o peso em kg de 6 pessoas obesas: 184; 193; 204; 204; 196; 207. a) Calcule a m´edia. b) Qual foi o desvio da 2a pessoa em rela¸c˜ ao `a m´edia? n P c) Mostre que a soma dos desvios em rela¸c˜ao `a m´edia ´e nula, ou seja, (xi − x ¯) = 0. i=1

d) Transforme os dados em libras (1 kg = 2,2 lb). Encontre a m´edia em libras, qual ´e a rela¸c˜ao com a m´edia do item a? e) Adicione 20 kg a cada dado e encontre a m´edia. Qual ´e a rela¸c˜ao com a m´edia do item a? 2. Por engano, um professor omitiu uma nota no conjunto de notas de 10 alunos. Se as nove notas restantes s˜ ao 48, 71, 79, 95, 45, 57, 75, 83, 97 e a m´edia das 10 notas ´e 72, qual o valor da nota omitida? 3. Determine a moda dos seguintes conjuntos de dados: a) 5 5 5 3 1 5 1 4 3 5 b) 1 2 2 2 3 4 5 6 6 6 7 9 c) 1 2 3 6 7 8 9 10 d) 5 5 6 6 9 9 10 10 4. Calcule a mediana dos tempos de sobrevivˆencia (em anos ap´os a posse) dos cinco primeiros presidentes americanos: 10, 26, 29, 28, 15. 5. Os valores a seguir s˜ ao os pagamentos (em d´olares) feitos aos executantes de um concerto de rock: 500, 600, 800, 50.000, 1.000, 500. Calcule a mediana. 6. Calcule a mediana dos dados: 11,46 10,50 10,33 10,16 10,11 9,90 9,78 9,12 8,80 8,13 12,05 11,14 10,40 10,23 10,13 9,95 9,80 9,30 8,97 8,23 12,14 10,31 10,46 11,29 10,15 9,35 9,86 10,00 9,05 8,60 7. Considere os dados da Tabela 13, reapresentados abaixo: No de filhos 0 1 2 3 4 5 6 7 No de casais 6 16 9 8 3 3 3 2 Calcule a m´edia, a moda e a mediana. 8. Um professor mediu o tempo (em minutos) gasto pelos estudantes de sua disciplina para conclu´ırem um trabalho no laborat´ orio. Com os dados obtidos construiu-se o histograma ao lado: a) Que porcentagem de alunos fica entre meia hora e uma hora e meia no laborat´ orio? b) Qual ´e a m´edia, a moda e a mediana do tempo gasto no laborat´ orio? c) Localize no gr´ afico as medidas: m´edia, moda e mediana. 9. Considere os conjuntos de dados a seguir. Calcule as medidas de tendˆencia central e indique justificando qual ´e a mais apropriada. a) 1; 23; 25; 26; 27; 23; 29; 30 b) 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2; 2; 2; 2; 3; 3; 4; 50 c) 1; 1; 2; 3; 4; 1; 2; 6; 5; 8; 3; 4; 5; 6; 7 d) 1; 101; 104; 106; 111; 108; 109; 200 UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

37


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

5.2.3

Medidas Separatrizes

Ao calcular a mediana viu-se que ´e poss´ıvel determinar um ponto na escala de medida abaixo do qual est´ a localizada a metade (ou 50%) ou acima do qual est´a localizada a outra metade das observa¸c˜oes. Outras medidas, assim como a mediana, que dividem o conjunto de observa¸c˜oes em partes iguais s˜ ao denominadas de medidas separatrizes: quartil, decil e percentil. O quartil divide o conjunto de observa¸c˜oes em quatro partes iguais; o decil em dez partes e o percentil em cem partes iguais. Uma rela¸c˜ao entre estas quatro medidas separatrizes pode ser visualizada na Figura 18.

FIGURA 18 Equivalˆencia das medidas separatrizes Como se observa, o quartil ´e cada um dos trˆes valores (Q1 , Q2 e Q3 ) que dividem o conjunto de observa¸c˜ oes em quatro partes iguais. O primeiro quartil corresponde ao 25o percentil, o segundo ` a mediana e o terceiro ao 75o percentil. Tamb´em se nota que o decil ´e cada um dos 9 pontos (D1 , D2 , . . ., D9 ) que dividem o conjunto de observa¸c˜ oes em 10 partes iguais. O quinto decil corresponde `a mediana e ao 50o percentil. Visualiza-se que o percentil corresponde a cada um dos 99 pontos (P1 , P2 , . . ., P99 ) que dividem o conjunto de observa¸c˜ oes em 100 partes iguais. Para calcular qualquer medida separatriz ser´a necess´ario transform´ a-la em percentil, isto porque ´e adotado apenas f´ormulas que se baseiam nos percentis. C´ alculo das medidas separatrizes A forma de calcular as medidas separatrizes ser´a a apresentada por [??]. Para o c´alculo destas medidas ´e sempre necess´ ario ordenar os dados em ordem crescente, como foi feito para calcular a mediana, depois encontra-se a posi¸c˜ ao que ocupa a medida separatriz e, finalmente, localiza o respectivo valor no conjunto de dados. Sendo n o n´ umero de dados e Pr o r-´esimo percentil de interesse, a posi¸c˜ao em que se localiza n·r , entretanto: este percentil ´e dada por 100 n·r / Se ´e um inteiro, o r-´esimo percentil dos dados ´e a m´edia dos valores que ocupam a 100 nr nr esima e ( 100 + 1)-´esima posi¸c˜ oes. 100 -´ n·r n˜ ao for inteiro, o r-´esimo percentil ser´a o valor que ocupa a (j + 1)-´esima posi¸c˜ao, / Se 100 nr no qual j ´e o maior inteiro menor que o quociente 100 . Exemplo 1: Considere os n = 13 valores j´a ordenados: 2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05 A mediana corresponde ao 50o percentil, assim a posi¸c˜ao que a mediana se localiza ´e: n·r 13 · 50 = = 6,5, note que 6,5 n˜ ao ´e um n´ umero inteiro, assim, a mediana se localizar´a na posi¸c˜ ao 100 100 a (6 + 1) = 7, ou seja, 7 posi¸c˜ ao, cujo valor ´e 2,82. Ent˜ao, P50 = Q2 = md = 2,82. Conclui-se que 7 das observa¸c˜ oes s˜ ao menores ou iguais a 2,82 e 7 s˜ao maiores ou iguais a 2,82. O 1o quartil corresponde ao 25o percentil, a sua posi¸c˜ao ´e encontrada por: n·r 13 · 25 = = 3,25, note que 3,25 n˜ ao ´e um n´ umero inteiro, assim, o 1o quartil estar´a em (3 + 1) = 4, 100 100 ou seja, 4a posi¸c˜ ao, que corresponde ao valor 2,60. Ent˜ao, P25 = Q1 = 2,60. O 3o quartil ou 75o percentil ´e localizado na: n·r 13 · 75 = = 9,75, que tamb´em n˜ ao ´e inteiro, assim, o 3o quartil estar´a em (9 + 1) = 10, ou seja, 100 100 10a posi¸c˜ ao, cujo valor ´e 3,38. Ent˜ ao, P75 = Q3 = 3,38. O conjunto de dados e as respectivas medidas calculadas s˜ao apresentados a seguir: 2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02; 4,05 Exemplo 2: Considere os n = 12 valores j´ a ordenados: 38

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02 A mediana (50o percentil) est´ a em: n·r 12 · 50 = = 6 que ´e inteiro, portanto, a mediana ser´a a m´edia entre os valores que ocupam a 100 100 12 · 50 2,75 + 2,82 12 · 50 = 6a e a + 1 = 7a posi¸c˜ oes, sendo, portanto, igual a = 2,785. 100 10 2 o o O 1 quartil que corresponde ao 25 percentil est´a em: n·r 12 · 25 = = 3 que ´e inteiro, portanto, o 1o quartil ser´a a m´edia entre os valores que ocupam a 100 100 12 · 25 12 · 25 2,30 + 2,60 = 3a e a + 1 = 4a posi¸c˜ oes, sendo, assim, igual a = 2,45. 100 10 2 O 3o quartil (75o percentil) ´e: 12 · 75 n·r = = 9 que ´e inteiro, portanto, o 3o quartil ser´a a m´edia entre os valores que se localizam na 100 100 12 · 75 12 · 75 3,00 + 3,38 = 9a e na + 1 = 10a posi¸c˜ oes, cujo valor ´e igual = 3,19. 100 10 2 o o o Os 1 , 2 e 3 quartis dos dados est˜ao entre os valores destacados: 2,15; 2,25; 2,30; 2,60; 2,68; 2,75; 2,82; 2,85; 3,00; 3,38; 3,50; 4,02 Sendo iguais a:

2,45; 1o ,

2,785;

3,19

2o (mediana) e

3o quartis, respectivamente.

C´ alculo das medidas separatrizes para dados agrupados Para dados agrupados em tabelas de distribui¸c˜ao de frequˆencias, o c´alculo das medidas separatrizes pode ser realizado por: Ir − FAr Pr = LIr + Cr Fr Em que: r: ordem do percentil; Pr : valor do percentil de ordem r; r

k P

fi

i=1

k: n´ umero de classes; Ir : posi¸c˜ ao do percentil de ordem r dado por: Ir = 100 fi : frequˆencia absoluta das classes i = 1, 2, . . . , k; LIr : limite inferior da classe percentil de ordem r; FAr : frequˆencia absoluta acumulada imediatamente anterior `a classe percentil de ordem r; Fr : frequˆencia simples da classe percentil de ordem r; Cr : amplitude da classe percentil de ordem r. Exemplo: Considere os dados apresentados na Tabela 17, determinar a mediana, o 1o quartil, o o 3 quartil do n´ umero de cartas. Solu¸c˜ ao: A mediana corresponde ao 50o percentil e pode ser calculada por: I50 − FA50 P50 = LI50 + C50 F50 Em que: P50 : ?; 50 I50 : posi¸c˜ ao do percentil de ordem 50: I50 =

5 P i=1

100

fi =

50 × (5 + 9 + 20 + 18 + 8) = 30a posi¸c˜ao 100

Localizada a posi¸c˜ ao do percentil, adota-se o mesmo procedimento efetuado para encontrar a mediana. Como I50 est´ a na 30a posi¸c˜ ao, na tabela calcula-se a f ac e vai-se comparando: UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

39


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

TABELA 20 C´ alculos auxiliares: localiza¸c˜ao N´ umero de cartas N´ umero de Frequˆencia absoluta acuentregues por dia dias fi mulada crescente f ac 20 ` 30 05 05 30 ` 40 09 14 40 ` 50 20 34 50 ` 60 18 52 60 ` 70 08 60 Total 60

da classe do P50 Compara¸c˜ao I50 e f ac 5 ´e maior ou igual a 30? N˜ao! 14 ´e maior ou igual a 30? N˜ao! 34 ´e maior ou igual a 30? Sim!

Portanto, LI50 = 40, porque o valor que ocupa a 30a posi¸c˜ao est´a na 3a classe; FA50 = 14; F50 = 20; C50 = 10; 30 − 14 × 10 = 48 cartas. fazendo as devidas substitui¸c˜ oes, chega-se a: P50 = 40 + 20 H

I

H

O 1o quartil corresponde ao 25o percentil: I25 − FA25 C25 P25 = LI25 + F25 Em que: P25 : ?; 25

5 P

fi

25 × (5 + 9 + 20 + 18 + 8) = 15a posi¸c˜ao. 100 100 Localizada a posi¸c˜ ao do percentil, adota-se o mesmo procedimento efetuado para encontrar a mediana. Como I25 est´ a na 15a posi¸c˜ ao, na tabela calcula-se a f ac e vai-se comparando: i=1

I25 : posi¸c˜ ao do percentil de ordem 25: I25 =

=

TABELA 21 C´ alculos auxiliares: localiza¸c˜ao N´ umero de cartas N´ umero de Frequˆencia absoluta acuentregues por dia dias fi mulada crescente f ac 20 ` 30 05 05 30 ` 40 09 14 40 ` 50 20 34 50 ` 60 18 52 60 ` 70 08 60 Total 60

da classe do P25 Compara¸c˜ao I50 e f ac 5 ´e maior ou igual a 15? N˜ao! 14 ´e maior ou igual a 15? N˜ao! 34 ´e maior ou igual a 15? Sim!

Portanto, LI25 = 40, porque o valor que ocupa a 15a posi¸c˜ao est´a na 3a classe; FA25 = 14; F25 = 20; C25 = 10; 15 − 14 fazendo as devidas substitui¸c˜ oes, chega-se a: P25 = 40 + × 10 = 40,5 cartas. 20 H

I

H

O 3o quartil corresponde ao 75o percentil: I75 − FA75 P75 = LI75 + C75 F75 Em que: P75 : ?; 75 I75 : posi¸c˜ ao do percentil de ordem 75: I75 = 40

5 P i=1

100

fi =

75 × (5 + 9 + 20 + 18 + 8) = 45a posi¸c˜ao. 100

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

Localizada a posi¸c˜ ao do percentil, adota-se o mesmo procedimento efetuado para encontrar a mediana. Como I75 est´ a na 45a posi¸c˜ ao, na tabela calcula-se a f ac e vai-se comparando: TABELA 22 C´ alculos auxiliares: localiza¸c˜ao N´ umero de cartas N´ umero de Frequˆencia absoluta acuentregues por dia dias fi mulada crescente f ac 20 ` 30 05 05 30 ` 40 09 14 40 ` 50 20 34 50 ` 60 18 52 60 ` 70 08 60 Total 60

da classe do P75 Compara¸c˜ao I50 e f ac 5 ´e maior ou igual a 45? N˜ao! 14 ´e maior ou igual a 45? N˜ao! 34 ´e maior ou igual a 45? N˜ao! 52 ´e maior ou igual a 45? Sim!

Portanto, LI75 = 50, porque o valor que ocupa a 45a posi¸c˜ao est´a na 4a classe; FA75 = 34; F75 = 18; C75 = 10; 45 − 34 fazendo as devidas substitui¸c˜ oes, chega-se a: P75 = 50 + × 10 = 56,1 cartas. 18 H 5.2.4

I

H

Exerc´ıcios

1. Encontre para os dados da Tabela 15, a mediana, o 1o quartil e o 3o quartil. 2. Para os dados abaixo, encontre a mediana, o 1o quartil, o 3o quartil, o 10o percentil e o 95o percentil a) 5 5 5 3 1 5 1 4 3 5 b) 1 2 2 2 3 4 5 6 6 6 7 9 c) 1 2 3 6 7 8 9 10 d) 5 5 6 6 9 9 10 10 e) 500 600 800 50.000 1.000 500 f) 8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78 9,80 9,86 9,90 9,95 10,00 10,11 10,13 10,15 10,16 10,23 10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14 Medidas separatrizes: como o R e o Excel calculam Outras formas de calcular as medidas separatrizes podem ser encontradas na literatura e em programas de computador como no R e no Excel. Nestes programs estas medidas s˜ ao calculadas considerando: p Pj = (n − 1) + 1 100 Em que: Pj : ´e a posi¸c˜ ao do percentil de interesse, sendo j = 1, 2, 3, . . . , 25, . . . , 50, . . . , 75, . . . , 99; p: ´e o percentil desejado; n: ´e o n´ umero de elementos (n´ umero de dados);

1. Primeiro monta-se as posi¸c˜oes dos valores: 14 · · · · · · · · · · · · · · · 26,3 13,25 · · · · · · · · · · · · · · · x 13 · · · · · · · · · · · · · · · 26,2 Em que x ´e o valor do 1o quartil. 2. Calcula-se a varia¸c˜ao entre 13 e 14: 14 · · · · · · · · · · · · · · · 26,3 − 13 · · · · · · · · · · · · · · · 26,2 1 · · · · · · · · · · · · · · · 0,1

Exemplo: Calcule o 1o quartil, considere n = 50 e que o 13o dado ´e igual a 26,2 e o 14o dado ´e 26,3.

3. Agora, calcula-se a varia¸c˜ao entre 13,25 e 14: 25 (50 − 1) + 1 = 13,25 P25 = 100 Sabe-se que o 1o quartil est´ a entre o 13o e 14o dados. O valor do 1o quartil ´e calculado por interpola¸c˜ao linear.

UNIFAL-MG/Alfenas

14 · · · · · · · · · · · · · · · 26,3 − 13,25 · · · · · · · · · · · · x 0,75 · · · · · · · · · · · · 26,3 − x

Profs. Fl´ avio Bittencourt/Adriana Dias

41


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

4. Por regra de trˆes calcula-se o valor do 1o quartil considerando os resultados do item 2 e 3.

1 0,75

0,1 26,3 − x

Como, x = 26,225, P25 = Q1 = 26,225. 5.2.5

Medidas de Variabilidade (Dispers˜ ao)

As medidas de tendˆencia central fornecem informa¸c˜oes valiosas mas, em geral, n˜ao s˜ao suficientes para descrever e discriminar diferentes conjuntos de dados. As medidas de variabilidade (ou dispers˜ao) permitem visualizar a maneira como os dados se comportam (ou se concentram) em torno do valor central. A variabilidade pode ser medida pelas estat´ısticas: amplitude total, distˆancia interquart´ılica, variˆancia, desvio padr˜ ao e coeficiente de varia¸c˜ ao. Amplitude total A amplitude total, A, de um conjunto de valores ´e a diferen¸ca entre o maior e o menor valor da vari´ avel: A = maior valor − menor valor Como depende apenas dos valores extremos seu uso se torna muito limitado, mas ´e bastante empregada em controle estat´ıstico da qualidade. Intervalo interquartil ´ uma medida que n˜ E ao ´e influenciada por serva¸c˜oes (valores discrepantes) que est˜ao acima de ´ a diferen¸ca entre o terceiro e o Q3 +1,5·IQR ou abaixo Q1 −1,5·IQR, denominadas valores extremos. E primeiro quartil de um conjunto de dados: de pontos extremos (outliers). Um Boxplot com as descri¸c˜oes e as localiIQR = Q3 − Q1 za¸c˜oes de cada item que o comp˜oe ´e apresentado na Figura 20. Lembre-se que este ´e um exemplo para Em que: ilustra¸c˜ao de modo que na pr´atica pode-se enconIQR: ´e o intervalo interquartil; trar varia¸c˜oes. Q3 : ´e o 3o quartil; Q1 : ´e o 1o quartil. Na maioria das situa¸c˜ oes o IQR ´e apresentado em um gr´ afico, juntamente com a mediana. O gr´ afico ´e denominado diagrama de caixa e bigodes (Box and Whisker Plot) ou, simplesmente Boxplot, neste s˜ ao representadas cinco medidas (estat´ısticas): m´ınimo (menor valor), quartil inferior (1o quartil), mediana, quartil superior (3o quartil), m´aximo (maior valor). Pode-se visualizar neste gr´afico informa¸c˜ oes sobre a distribui¸c˜ ao dos dados: posi¸c˜ao, dispers˜ ao, assimetria, caudas e valores discrepantes (outliers). A posi¸c˜ ao central dos valores ´e dada pela mediana e a dispers˜ ao pela amplitude interquart´ılica. As posi¸c˜ oes relativas da mediana e dos quartis e o formato dos bigodes d˜ ao uma no¸c˜ ao da simetria e do tamanho das caudas da distribui¸c˜ao. S˜ao dois bigodes e eles correspondem ` a maior observa¸c˜ ao menor que Q3 + 1,5 · IQR e ` a menor observa¸c˜ao maior que Q1 − 1,5 · IQR. Dependendo da disperFIGURA 19 Boxplot: modelo e nomes das partes s˜ ao dos dados, neste gr´ afico, podem aparecer obPara confeccionar o Boxplot ´e necess´ario calcular algumas estat´ısticas (estat´ısticas de ordem), como: primeiro quartil, segundo quartil (mediana), terceiro quartil, limite da cerca inferior e limite da cerca superior. Siga os passos: * Ordene os dados em ordem crescente; * Calcule a mediana, o primeiro e terceiro quartis (Q1 e Q3 ); 42

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

* Trace um eixo vertical (ou horizontal) e marque neste eixo uma escala adequada e de f´acil leitura; * Seguindo a escala do eixo, forme um retˆangulo em que a extremidade inferior esteja representando o valor de Q1 e a extremidade superior, Q3 ; * Neste retˆ angulo, represente tamb´em a mediana (e/ou a m´edia); * Calcule o valor das cercas inferior e superior: Limite inferior: Q1 − 1,5(Q3 − Q1 ); Limite superior: Q3 + 1,5(Q3 − Q1 ); Estes limites (cercas) n˜ ao s˜ ao representados no gr´afico, apenas servem de orienta¸c˜ao (linha imagin´aria) para inserir a localiza¸c˜ ao das hastes (bigodes) do Boxplot e dos valores extremos; * Desenhe a haste (bigode) inferior com uma linha paralela `a base do retˆangulo localizando a menor observa¸c˜ ao maior que o valor obtido por Q1 − 1,5(Q3 − Q1 ); * Desenhe a haste (bigode) superior com uma linha paralela `a base do retˆangulo localizando a maior observa¸c˜ ao menor que o valor obtido por Q3 + 1,5(Q3 − Q1 ); * Registre com pontos ou pequenos c´ırculos os valores que s˜ao menores que Q1 − 1,5(Q3 − Q1 ) ou maiores que Q3 + 1,5(Q3 − Q1 ). Estes s˜ao os valores extremos (outliers); * Registre no gr´ afico o t´ıtulo e a identifica¸c˜ao dos eixos. Quando a distribui¸c˜ ao dos dados ´e sim´etrica, a linha que representa a mediana localiza-se no centro ou bem pr´ oxima do centro do retˆangulo e os bigodes distam semelhantemente das extremidades do retˆ angulo. Quando a distribui¸c˜ ao dos dados ´e assim´etrica ` a direita, a linha que representa a mediana estar´ a mais pr´ oxima de Q1 do que de Q3 . E quando a distribui¸c˜ ao dos dados ´e assim´etrica `a esquerda, a linha que representa a mediana estar´a mais pr´ oxima de Q3 do que de Q1 .

FIGURA 20 Boxplot: simetrias

O box plot tamb´em pode ser confeccionado na posi¸c˜ao horizontal, tamb´em, pode ser utilizado ´ uma na compara¸c˜ ao de dois ou mais conjuntos de dados e na compara¸c˜ao com outras ferramentas. E ferramenta explorat´ oria de an´ alise de dados, sendo u ´til quando se trabalha com conjuntos limitados de dados em que outras ferramentas como o histograma, por exemplo, pode n˜ao ser adequadamente empregado. Exemplo: Duas amostras A e B foram obtidas de uma popula¸c˜ao cuja vari´avel de interesse ´e: n´ umero de filhos por casal. A amostra A forneceu os seguintes valores: 0, 0, 1, 1, 2, 3, 3, 3, 4, 7, 9. A amostra B: 0, 0, 1, 2, 2, 2, 3, 3, 3, 3, 3, 4, 7, 9. Algumas estat´ısticas das duas amostras e o Boxplot dos dados (Figura 21): nA = 11 AA = 9 nB = 14 AB = 9 x ¯A = 3 Q1A = 1 x ¯B = 3 Q1B = 2 mdB = 3 Q3B = 3 mdA = 3 Q3A = 4 moB = 3 IQRB = 1 moA = 3 IQRA = 3 minA = 0 minB = 0 maxA = 9 maxB = 9

FIGURA 21 Boxplot: N´umero de filhos por casal: Amostra A e Amostra B UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

43


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

Embora as medidas de tendˆencia central das duas amostras sejam iguais e a amplitude tamb´em, pode-se visualizar que os dados obtidos nas duas amostras apresentam dispers˜ao, assimetria, caudas e valores discrepantes diferentes, conforme pˆode ser visualizado na Figura 21. Variˆ ancia amostral ´ uma medida que expressa o desvio quadr´atico m´edio do conjunto de dados, e o resultado ´e o E quadrado da unidade de medida dos dados: n P

s2 =

(xi − x ¯)

2

i=1

n−1

Mede a variabilidade absoluta de um conjunto de observa¸c˜oes. A variˆancia compara a variabilidade entre conjuntos num´ericos, que possuam a mesma m´ edia e a mesma unidade de medida. A pr´ oxima vers˜ ao ´e mais f´ acil de ser calculada, portanto ´e a mais usada:  n 2  P xi  n  X 1   x2i − i=1 s2 =   n − 1  i=1 n  Muitas calculadoras tˆem fun¸c˜ oes prontas para o c´alculo de variˆancias, e por isso ´e raro ter que realizar todos os c´ alculos manualmente. Quando os dados est˜ ao agrupados em tabelas de distribui¸c˜ao de frequˆencias a f´ormula da variancia ´e um pouco modificada, apenas para ficar mais f´acil a opera¸c˜ao: ˆ  !2  k X  fi X¯i  k X  1 2   i=1 2 s = k fi X¯i −   k   X X i=1   f −1 f i

i

i=1

i=1

Em que: k X fi = n i=1

fi : ´e a frequˆencia da classe i = 1, 2, · · · , k; X¯i : ´e o ponto m´edio da classe i. Desvio padr˜ ao amostral Como medida de dispers˜ ao, a variˆancia tem a desvantagem de apresentar o resultado igual ao quadrado da unidade de medida dos dados. Por exemplo, se os dados est˜ao em metros, a variˆancia ´e dada em metros ao quadrado. O desvio padr˜ ao definido como a raiz quadrada positiva da variˆancia tˆem as mesmas aplica¸c˜oes da variˆ ancia e tem a mesma unidade de medida dos dados: √ s = s2 Coeficiente de varia¸ c˜ ao amostral Trata-se de uma medida relativa de dispers˜ao, u ´til para a compara¸c˜ao do grau de concentra¸c˜ ao em torno da m´edia de dados distintos. Sua f´ormula matem´atica ´e definida por: cv =

s · 100% x ¯

Geralmente ´e expressa em porcentagem (isto ´e, adimensional). Assim, a quantidade cv, ´e um n´ umero abstrato, ou seja, independe das unidades em que foram medidas os dados. Ele representa o desvio padr˜ ao que seria obtido se a m´edia fosse igual a 100. A vantagem do coeficiente de varia¸c˜ao ´e que 44

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

se pode comparar a variabilidade dos dados de diferentes vari´ aveis. Se as m´edias ou as unidades de medidas s˜ ao diferentes, a compara¸c˜ ao deve ser realizada pelo cv. Na pr´ atica, considera-se uma distribui¸c˜ao com baixa dispers˜ao quando o coeficiente de varia¸c˜ ao for menor ou igual a 10%; m´edia dispers˜ ao quando o coeficiente de varia¸c˜ao for maior que 10% e menor o igual a 20% e alta dispers˜ ao quando for superior a 20%. Exemplos Exemplo 1: Suponhamos que as notas de Jo˜ao, Jos´e e Maria em quatro provas de uma determinada disciplina sejam as apresentadas abaixo: TABELA 23 Notas dos trˆes alunos em quatro provas de determinada disciplina e suas respectivas m´edias Notas obtidas nas disciplinas Alunos M´edia 1 2 3 4 Jo˜ ao 5 5 5 5 5 Jos´e 10 5 5 0 5 Maria 10 10 0 0 5 Observa-se que todos os alunos obtiveram m´edia igual a 5, mas as notas variam de aluno para aluno. Apresentam variabilidades diferentes em torno da m´edia 5. As notas de Jo˜ao n˜ao apresentam variabilidade. As notas de Jos´e variaram mais do que as de Jo˜ao, mas variaram menos do que as da Maria. Maria ´e a que apresenta maior variabilidade em torno da m´edia. Neste conjunto de notas ´e f´acil perceber a variabilidade das notas em torno da m´edia, mas quando o conjunto de dados apresenta muitas observa¸c˜ oes ´e dif´ıcil visualizar esta dispers˜ ao. Calculando as variˆ ancias amostrais para cada aluno pode-se observar a variabilidade, mas agora quantativamente. Para o c´ alculo das variˆ ancias das notas dos alunos usa-se:  n 2  P xi  n  X 1   i=1 2 2 x − s =   n − 1  i=1 i n  Organizando os dados e realizando c´alculos preliminares, ou seja, as somas das notas e a soma dos quadrados das notas, obt´em-se: Jo˜ ao xi 5 5 5 P 5 xi = 20

s2 =

1 4−1

Jos´e

x2i 25 25 25 P 225 xi = 100

ao Jo˜ 100 −

202 4

=0

s2 =

1 4−1

Jos´e 2

150 −

Maria

x2i 100 25 25 P 20 xi = 150

xi 10 5 5 P 0 xi = 20

20 4

= 16,6667

x2i 100 100 0 P 20 xi = 200

xi 10 10 0 P 0 xi = 20

s2 =

1 4−1

Maria2 200 − 204 = 33,3333

As variˆ ancias amostrais das notas do Jo˜ao, do Jos´e e da Maria s˜ao, respectivamente, 0; 16,6667 e 33,3333 pontos2 . Como o interesse ´e verificar a variabilidade dos dados, ´e conveniente usar uma medida estat´ıstica na mesma unidade de medida dos dados. Para situa¸c˜oes aplicadas como essa a melhor medida ´e o desvio padr˜ ao amostral: Jo˜ √ ao s= 0=0

s=

Jos´e 16,6667 = 4,08

s=

Maria 33,3333 = 5,77

O desvio padr˜ ao amostral ´e uma medida que est´a na mesma unidade de medida dos dados e, consequentemente, da m´edia. O desvio padr˜ao ao lado da m´edia exerce um papel importante nas UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

45


5 ESTAT´ ISTICA DESCRITIVA

Estat´ıstica B´ asica

inferˆencias feitas sobre a m´edia populacional. A variˆancia amostral desempenha um papel importante nos m´etodos estat´ısticos usados para chegar a inferˆencias sobre a variˆancia populacional. Em geral a variˆ ancia ´e considerada mais na teoria inferencial, enquanto o desvio padr˜ao amostral ´e mais usado em aplica¸c˜ oes. Por u ´ltimo, o coeficiente de varia¸c˜ao para as notas dos alunos: Jo˜ ao 0 cv = · 100 = 0% 5

Jos´e 4,08 cv = · 100 = 81,6% 5

Maria 5,77 cv = · 100 = 115,4% 5

Em termos relativos diz-se que a dispers˜ao das notas de Jo˜ao foi de 0%, as de Jos´e de 81,6% e as da Maria foi de 115,4% em torno da m´edia. Exemplo 2: Adotando os dados da Tabela 17, n´ umero de cartas entregues, diariamente, em um edif´ıcio residencial, durante 60 dias, calcule a variˆancia. Os c´ alculos preliminares s˜ ao apresentados a seguir. Assim como para calcular a m´edia, para a variˆ ancia tamb´em ´e necess´ ario calcular o ponto m´edio das classes e mais alguns c´alculos complementares: TABELA 24 N´ umero de cartas entregues, diariamente, em um edif´ıcio residencial, durante 60 dias e c´ alculos preliminares 2 2 No de cartas/dia X¯i X¯i No de dias, fi fi · X¯i fi · X¯i 20 ` 30 25 625 05 125 3125 30 ` 40 35 1225 09 315 11025 40 ` 50 45 2025 20 900 40500 50 ` 60 55 3025 18 990 54450 60 ` 70 65 4225 08 520 33800 Total 60 2850 142900 Assim, fazendo  as respectivas substitui¸c˜ oes nos somat´orios, obt´em-se: !2  k X  k " # fi X¯i  2   X 1 1 (2850) 2   i=1 2 ¯ s = k fi Xi − 142900 − = 127,5424 cartas2 .  = k   60 − 1 60 X X i=1  f −1 f i

i

i=1

i=1

Como pode ser de interesse uma medida de variabilidade na mesma unidade de medida dos dados, ao ´e utilizado, logo: √ o desvio √ padr˜ s = s2 = 127,5424 = 11,2935 cartas. Para calcular o coeficiente de varia¸c˜ao, basta realizar a opera¸c˜ao: s 11,2635 cv = · 100% = × 100% = 23,71% x ¯ 47,5 Propriedades da variˆ ancia - V (·) e do desvio padr˜ ao - DP (·) Sejam X e Y duas vari´ aveis e k uma constante qualquer. • Se X = Y ± k, ent˜ ao: V (X) = V (Y )

DP (X) = DP (Y )

• Se X = Y · k, ent˜ ao: V (X) = V (Y ) · k 2 5.2.6

DP (X) = DP (Y ) · k

Exerc´ıcios

1. Os dados apresentados a seguir referem-se `as varia¸c˜oes de pesos corporais em 20 alunos em kg: 18,77 17,76 17,44 17,19 18,47 19,17 17,90 17,51 18,62 16,99 18,47 21,65 21,71 17,93 19,14 18,40 19,38 17,37 19,37 18,30. a) Calcule a variˆ ancia, o desvio padr˜ ao e coeficiente de varia¸c˜ao dos dados acima. b) Agrupe os dados dos pesos numa tabela de distribui¸c˜ao de frequˆencias. 46

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

6 PROBABILIDADE

c) Qual ´e a porcentagem de alunos com peso superior a 19 kg? Use a tabela e os dados. d) Acima de qual peso est˜ ao 50% dos alunos? Use a tabela e os dados. e) Qual a porcentagem de alunos com peso corporal inferior a 17 kg? Use os dados e a tabela. f) Obtenha os pesos que deixam 25% dos alunos acima do mesmo e 25% abaixo. Use os dados e a tabela. g) Calcule a variˆ ancia, o desvio padr˜ ao e o coeficiente de varia¸c˜ao dos dados tabelados e compare com os valores obtidos no item a e discuta os resultados obtidos. h) Fa¸ca o boxplot dos dados. 2. A tabela abaixo mostra o n´ umero anual de dias de licen¸ca m´edica usados por enfermeiras em um grande hospital urbano em 2003. As enfermeiras s˜ao listadas por tempo de casa (anos de servi¸co), isto ´e, a enfermeira n´ umero 1 tem menos tempo de casa, enquanto a enfermeira n´ umero 21 tem o maior tempo de casa. N´ umero da enfermeira 1 2 3 4 5 6 7

Dias de licen¸ca 2 9 1 0 5 4 6

N´ umero da enfermeira 8 9 10 11 12 13 14

Dias de licen¸ca 7 8 8 3 6 7 8

N´ umero da enfermeira 15 16 17 18 19 20 21

Dias de licen¸ca 9 2 8 9 6 8 5

Fa¸ca o que se pede: a) Considere que xi representa o n´ umero de dias de licen¸ca m´edica por ano usados pela enfermeira de n´ umero i, onde o ´ındice i ´e o n´ umero da enfermeira. Determine cada um dos itens a seguir: 10 n n 10 X X X X i) x3 , x9 , x21 ii) xi iii) xi iv) xi v) x2i i=1

i=11

i=1

i=1

b) Suponha que cada enfermeira usasse exatamente dois dias a mais do que aparece na tabela. Use a nota¸c˜ ao de somat´ orio para expressar novamente a soma em (a) iv de modo a refletir os dois dias de licen¸ca adicionais usados por cada enfermeira. c) Use os dados de licen¸ca por ano das enfermeiras para calcular: i) a m´edia, a moda e mediana ii) a variˆ ancia, o desvio padr˜ ao e coeficiente de varia¸c˜ao. 3. Um pesquisador mediu, durante 10 dias, `as 9:00, a temperatura em graus Celsius do freezer de seu laborat´ orio encontrando os seguintes valores: −10, −2, 0, 1, −3, −2, 0, −3, −1 e 1. Calcule a m´edia, a variˆ ancia e o desvio padr˜ ao, apresentando a unidade de medida. 6

PROBABILIDADE

Anteriormente foi estudado como as estat´ısticas descritivas podem ser usadas para organizar, descrever e apresentar um conjunto de dados. Entretanto, pode-se querer investigar como a informa¸c˜ ao contida na amostra pode ser usada para inferir sobre alguma caracter´ıstica da popula¸c˜ao da qual foi obtida. Antes de se fazer isto, ´e necess´ ario a exposi¸c˜ao de alguns conceitos b´asicos e o estudo sobre probabilidades. 6.1 6.1.1

Defini¸ c˜ oes Experimento

´ qualquer processo que permite ao pesquisador fazer observa¸c˜oes. Pode ser determin´ıstico e E aleat´ orio (probabil´ıstico). 6.1.2

Experimento determin´ıstico

´ um tipo de experimento que permite, sob determinadas condi¸c˜oes, conhecer o resultado sem E mesmo ter que realiz´ a-lo. Preservando todas condi¸c˜oes impostas em um experimento, se o repetir chega-se ao mesmo resultado (ou conclus˜ ao) n˜ ao importando o n´ umero de vezes que seja reproduzido. Exemplos: observar um corpo em queda livre, realizar uma rea¸c˜ao qu´ımica, observar o movimento de um m´ ovel, observar a temperatura de ebuli¸c˜ao da ´agua etc. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

47


Estat´ıstica B´ asica

6 PROBABILIDADE

6.1.3

Experimento aleat´ orio ´ E qualquer experiˆencia ou ensaio cujo resultado ´e imprevis´ıvel por depender exclusivamente do acaso. Embora n˜ ao se tenha certeza qual resultado ir´a ocorrer, em geral, pode-se descrever todos os poss´ıveis resultados. Exemplos: lan¸camento de uma moeda, lan¸camento de um dado, sorteio de uma bola de uma urna contendo bolas enumeradas de 1 a 10 etc. 6.1.4

Espa¸ co amostral

O espa¸co amostral ´e definido como o conjunto de todos os resultados poss´ıveis de um ensaio (experimento) aleat´ orio, ser´ a utilizada a letra grega ˆomega (Ω) para identific´a-lo. O s´ımbolo n(Ω) representa o n´ umero de elementos deste conjunto. Exemplos: 1. Um experimento consiste em lan¸car uma moeda e observar a face voltada para cima Considerando K para o resultado “cara” e C para “coroa”, ent˜ao: Ω1 = {K, C} =⇒ n (Ω1 ) = 2 2. Seja um experimento em que ´e lan¸cado um dado comum. Considerando cada face: 1, 2, 3, 4, 5 e 6 como um poss´ıvel resultado, ent˜ ao: Ω2 = {1, 2, 3, 4, 5, 6} =⇒ n (Ω2 ) = 6 3. Uma pessoa deseja sortear uma bola de uma urna que cont´em 10 bolas enumeradas, ent˜ao: Ω3 = {b1 , b2 , . . . , b10 } =⇒ n (Ω3 ) = 10 4. Ao lan¸car dois dados simultaneamente, considerando o par ordenado (a, b) sendo a e b as faces do 1o e 2o dado, respectivamente, o espa¸co amostral ´e:   (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)        (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)        (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) =⇒ n (Ω4 ) = 36 Ω4 = (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)        (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)        (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) 5. Uma moeda ´e lan¸cada at´e que o resultado “cara” (K) ocorra pela primeira vez. Observa-se em qual lan¸camento este fato ocorre. Ω5 = {1, 2, 3, 4, . . .} =⇒ n (Ω5 ) =? 6. Lan¸car uma moeda duas vezes e observar o n´ umero de caras. Ω6 = {0, 1, 2} =⇒ n (Ω6 ) = 4 7. Escolher um n´ umero no conjunto N. Observa¸ c˜ ao: Um espa¸co amostral ´e finito se n (Ω) = n ∈ N∗ . 6.1.5

Evento

Qualquer subconjunto de um espa¸co amostral representa um evento. A forma¸c˜ao de um evento est´ a ligada ao experimento e consequentemente ao espa¸co amostral. Os eventos ser˜ ao representados pelas letras mai´ usculas do nosso alfabeto e se A for um evento, o n´ umero de elementos de A ser´ a simbolizado por n(A). Exemplo: Considere um experimento que consiste em jogar um dado e observar a face voltada para cima. O espa¸co amostral j´ a foi definido em Ω2 . Alguns eventos Ai podem ser obtidos: • ocorrer a face 5, A1 = {5} =⇒ n (A1 ) = 1; 48

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

6 PROBABILIDADE

• ocorrer n´ umero par, A2 = {2, 4, 6} =⇒ n(A2 ) = 3; • ocorrer um n´ umero menor do que 7, A3 = {1, 2, 3, 4, 5, 6} =⇒ n (A3 ) = 6 = n (Ω) =⇒ A3 = Ω; • ocorrer um n´ umero maior ou igual a 7, A4 = ∅ =⇒ n (A4 ) = 0; Observa¸ c˜ ao: Note que se n(Ω) = n, ent˜ ao Ω ter´a 2n subconjuntos (tamb´em denominado de conjunto n das partes) e, portanto, 2 eventos. Entre eles est˜ao o ∅ (evento imposs´ıvel) e o pr´oprio Ω (evento certo). Opera¸ c˜ oes sobre eventos Como na teoria de conjuntos, diversas opera¸c˜oes podem ser aplicadas aos eventos. Estas opera¸c˜ oes permitem que se combine eventos para formar novos eventos, como a intersec¸ c˜ ao, a uni˜ ao e o complemento de evento(s). A intersec¸c˜ ao de dois eventos A e B, representada por A ∩ B, ´e definida como o evento “tanto A como B”, ou seja A e B ocorrem simultaneamente. Se A ∩ B = ∅, os eventos s˜ao chamados mutuamente exclusivos ou disjuntos. A uni˜ ao de dois eventos A e B, representada por A ∪ B, ´e o evento “ou A ou B ou ambos A e B”. ¯ ´e o evento “n˜ao A”. Este evento O complementar de um evento A, indicado por AC ou A, ocorrer´ a se, e somente se, A n˜ ao ocorrer. Exemplo: Considere um experimento aleat´orio em que uma moeda ´e lan¸cada duas vezes e as faces voltadas para cima s˜ ao observadas. O espa¸co amostral ´e: Ω = {(K,K) , (K,C) , (C,K) , (C,C)} Considere os eventos: A: ocorrˆencia de cara no primeiro lan¸camento e coroa no segundo: A = {(K,C)}; B: ocorrˆencia de duas caras: B = {(K,K)}. Ent˜ao: A intersec¸c˜ ao de A e B ´e a ocorrˆencia de duas caras e a ocorrˆencia de cara no primeiro lance e coroa no segundo. A∩B =∅ A uni˜ ao de A e B ´e a ocorrˆencia de duas caras ou a ocorrˆencia de cara no primeiro lance e coroa no segundo. A ∪ B = {(K,K) , (K,C)} O complemento de A ´e a n˜ ao ocorrˆencia de cara no primeiro lance e coroa no segundo. AC = {(K,K) , (C,K) , (C,C)} O complementar de B ´e a n˜ ao ocorrˆencia de duas caras. B C = {(K,C) , (C,K) , (C,C)} 6.2

Probabilidade

´ um valor associado a cada resultado (evento) poss´ıvel. Pode ser uma probabilidade a priori E ou a posteriori. 6.2.1

Probabilidade a priori ´ dada pela raz˜ E ao entre o n´ umero de maneiras que um determinado evento ocorre e o n´ umero de eventos simples diferentes (n´ umero de elementos) do espa¸co amostral. A probabilidade de um evento A qualquer ocorrer no espa¸co amostral Ω ´e denotada por: P (A) =

n(A) n(Ω)

Em que: P (A) ´e a probabilidade de ocorrer o evento A; n(A) ´e o n´ umero de elementos ou o n´ umero de maneiras que ocorre o evento A e n(Ω) ´e o n´ umero de elementos do espa¸co amostral Ω. Exemplo 1: Considere um experimento que consiste em lan¸car um dado. Calcule as probabilidades para cada evento apresentado: UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

49


Estat´ıstica B´ asica

6 PROBABILIDADE

Solu¸c˜ ao: Considerando as faces do dado, o espa¸co amostral ´e Ω = {1, 2, 3, 4, 5, 6} e tem 6 elementos, ou seja, n (Ω) = 6. a) Seja o evento A1 ocorrer o n´ umero 5, ent˜ao: A1 = {5} =⇒ n (A1 ) = 1. Logo, a probabilidade de A1 ´e: P (A1 ) =

1 n(A1 ) = n(Ω) 6

b) Considere o evento A2 ocorrer um n´ umero par, assim: A2 = {2, 4, 6} =⇒ n(A2 ) = 3. Portanto a probabilidade de A2 ´e: n(A2 ) 3 1 P (A2 ) = = = n(Ω) 6 2 c) Seja o evento A3 ocorrer um n´ umero menor do que 7: A3 = {1, 2, 3, 4, 5, 6} = Ω =⇒ n (A3 ) = n (Ω) = 6. A probabilidade de ocorrer A3 ´e: P (A3 ) =

n(A3 ) 6 = =1 n(Ω) 6

d) Considerando um evento A4 ocorrer um n´ umero maior ou igual a 7: A4 = ∅ ⇒ n (A4 ) = 0. Portanto, a probabilidade de A4 ´e: 0 n(A4 ) = =0 P (A4 ) = n(Ω) 6 6.2.2

Probabilidade a posteriori

Considere um experimento aleat´ orio com espa¸co amostral finito Ω = {a1 , a2 , . . . , ak }. Suponha que o experimento seja repetido N vezes, nas mesmas condi¸c˜oes. Seja ni o n´ umero de vezes que ocorre o evento elementar ai . Definindo a frequˆencia relativa do evento {ai } como sendo o n´ umero fi tal que: ni fi = , ∀i ∈ {1, 2, . . . , k}, ent˜ ao: N ni 1. 0 ≤ fi ≤ 1, ∀i, pois 0 ≤ ≤ 1; N n2 nk n1 + n2 + . . . + nk N n1 + + ... + = = = 1; 2. f1 + f2 + ... + fk = 1, pois N N N N N 3. Se A ´e um evento de Ω, (A 6= 0), a frequˆencia relativa do evento A, (fA ), ´e o n´ umero de vezes que X X ni = fi . ocorre A, dividido por N . Isto implica que fA = N ai ∈A

ai ∈A

Se um experimento ´e repetido N vezes sob as mesmas condi¸c˜oes e se o evento A ocorre ni vezes, ent˜ ao, conforme N aumenta, a raz˜ ao ni /N se aproxima de um limite fixado, que ´e a probabilidade de A. A probabilidade a posteriori ´e definida pelas frequˆencias relativas da tabela de distribui¸c˜ao de frequˆencias. Ou seja, ni P (A) = fi = N Exemplo: Considere a Tabela 25 em que ´e mostrado o n´ umero de pessoas diab´eticas no per´ıodo de janeiro a junho de 2009 em Minas Gerais. TABELA 25 Pacientes com diabetes em Minas Gerais, segundo o sexo, no per´ıodo de janeiro a junho de 2009 Sexo N´ umero de pacientes Masculino 2.878 Feminino 4.970 Total 7.848 Fonte: http://hiperdia.datasus.gov.br/

Se uma pessoa com diabetes foi escolhida ao acaso, qual a probabilidade de que ela seja do sexo masculino? Seja A o evento a pessoa com diabetes ´e do sexo masculino, ent˜ao: P (A) = fi = 50

ni 2.878 = = 0,3667 = 36,67% N 7.848

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

6.2.3

6 PROBABILIDADE

Importante saber!

1. Se A ´e um evento de Ω (ou seja, A ⊂ Ω)=⇒ P (A) ≥ 0. 2. P (Ω) = 1; Observa¸c˜ ao: se Ω = {a1 ,a2 ,a3 , . . . , an } e cada evento elementar {ai } est´a associado a uma proban X bilidade pi . Ent˜ ao, pi = p1 + p2 + . . . + pn = 1. i=1

3. P (∅) = 0 4. Se AC ´e o evento complementar de A, ent˜ao P AC = 1 − P (A). 5. Se A1 , A2 , . . . , An s˜ ao eventos pertencentes a Ω, isto ´e, tem interse¸c˜ao nula, Ai ∩ Aj = ∅, ! disjuntos n n [ X com i 6= j, ent˜ ao P Ai = P (Ai ) = P (A1 ) + P (A2 ) + . . . + P (An ). i=1

i=1

6. Se A e B s˜ ao dois eventos de um espa¸co amostral e n˜ao s˜ao eventos disjuntos, ou seja, a interse¸c˜ ao n˜ ao ´e o conjunto vazio, A ∩ B 6= ∅, ent˜ao, ao se calcular a probabilidade da uni˜ao ´e necess´ario considerar a interse¸c˜ ao, ou seja, P (A ∪ B) = P (A) + P (B) − P (A ∩ B). 7. 0 ≤ P (A) ≤ 1, a probabilidade de ocorrer o evento A ´e um n´ umero entre 0 e 1. 6.3

Probabilidade condicional

Recebe o nome de probabilidade condicional aquela que envolve pelo menos dois eventos e que a ocorrˆencia de um depende da ocorrˆencia do outro. Geralmente diz-se probabilidade de A dado B ou seja, a probabilidade de ocorrer o evento A sabendo que o evento B tenha ocorrido. Esta probabilidade ´e calculada por: n(A ∩ B) P (A ∩ B) = , P (B) > 0 P (A|B) = P (B) n(B) ´ importante destacar que P (A|B) 6= P (B|A). Pois, P (B|A) = P (A ∩ B) . E P (A) Exemplo 1: Um grupo de mo¸cas ´e classificado de acordo com a cor dos olhos e dos cabelos de cada mo¸ca, segundo a tabela a seguir: Cor dos olhos Azuis Castanhos Loiro 18 8 Castanho 9 9 Ruivo 4 2 Suponha que vocˆe esteja em um programa de televis˜ao e que o apresentador lhe pe¸ca para sortear uma dessas mo¸cas para conversar com vocˆe. Determine: a) Supondo que o apresentador do programa lhe diga que a mo¸ca sorteada tem cabelos castanhos, ent˜ ao qual ´e probabilidade de que ela tenha olhos castanhos? Solu¸c˜ ao: foi dada uma condi¸c˜ ao. Em outras palavras, vocˆe j´a sabe que aconteceu de a mo¸ca sorteada ter cabelos castanhos. Neste caso pode-se considerar os eventos: B: o evento a mo¸ca sorteada tem cabelos castanhos e A: o evento a mo¸ca sorteada ter olhos castanhos. Sabe-se que o espa¸co amostral ´e composto por todas as mo¸cas, totalizando 50 mo¸cas. Assim, o evento B tem 9 mo¸cas e o evento A tem 19 mo¸cas. A probabilidade procurada ´e uma probabilidade condicional de A ocorrer dado que B j´a tenha ocorrido. Pelos dados n(A ∩ B), que representa o n´ umero de mo¸cas que tem cabelos castanhos e olhos castanhos, ´e igual a 9. Portanto, n(A ∩ B) 9 1 P (A ∩ B) = = = P (A|B) = P (B) n(B) 18 2 Cor dos cabelos

b) Agora, o apresentador lhe disse que a garota que vocˆe sorteou tem cabelos ruivos. Qual a probabilidade de que ela tenha olhos azuis? Solu¸c˜ ao: Sabe-se que a mo¸ca sorteada tem cabelos ruivos. Considerando B o evento a mo¸ca sorteada ter cabelos ruivos e A o evento a mo¸ca sorteada ter olhos azuis. O espa¸co amostral ´e composto por todas as 50 mo¸cas. Assim, o evento B tem 6 mo¸cas e o evento A tem 31 mo¸cas. A probabilidade procurada ´e UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

51


Estat´ıstica B´ asica

6 PROBABILIDADE

uma probabilidade condicional de A ocorrer dado que B j´a tenha ocorrido. O evento n(A ∩ B) n´ umero de mo¸cas que tem cabelos ruivos e olhos azuis tem 4 elementos. Portanto, P (A|B) =

n(A ∩ B) 4 2 P (A ∩ B) = = = P (B) n(B) 6 3

Exemplo 2: Considere o espa¸co amostral Ω e os eventos A e B: Ω = {1, 2, 3, . . . , 20} A = {5, 10, 15, 20} B = {9, 10, 11, . . . ,20} Observe que a probabilidade de A dado B ´e igual a: P (A|B) =

P (A ∩ B) 3/20 1 = = . P (B) 12/20 4

E a probabilidade de B dado A ´e igual a: P (B|A) = 6.3.1

P (A ∩ B) 3/20 3 = = . P (A) 4/20 4

Exerc´ıcios

1. Use D para identificar os experimentos determin´ısticos e P para identificar os experimentos probabil´ısticos. ( ) Soltar uma pedra do alto de um edif´ıcio e observ´a-la cair em dire¸c˜ao ao solo. ´ todo aquele cujos resultados n˜ ( )E ao podem ser previstos antes da execu¸c˜ao do mesmo. ( ) Observar o movimento de um ve´ıculo e determinar a distˆancia percorrida. ( ) Injetar um medicamento experimental em ratos e observar a rea¸c˜ao dos mesmos. ( ) Lan¸car duas moedas e observar o n´ umero de caras obtido. 2. H´ a uma gaveta com meias das seguintes cores: 1 branca, 2 amarelas e 3 rosas. Duas meias s˜ ao retiradas. a) Descreva o espa¸co amostral deste experimento considerando amostragem com reposi¸c˜ao; b) Descreva o espa¸co amostral deste experimento considerando amostragem sem reposi¸c˜ao. 3. Defina o espa¸co amostral (Ω) para cada um dos seguintes experimentos aleat´orios: a) Nascimento de 3 filhos. b) Lan¸camento de um dado e uma moeda. c) Sele¸c˜ ao de duas pessoas num grupo trˆes (A, B, C), com reposi¸c˜ao. d) Idem, sem reposi¸c˜ ao. e) Sele¸c˜ ao de duas pessoas num grupo trˆes (A, B, C), mas as duas pessoas s˜ao selecionadas simultaneamente. 4. Uma moeda e um dado s˜ ao lan¸cados. Seja Ω os pares ordenados formados por cara ou coroa e um dos seis n´ umeros do dado. Descreva os eventos: a) A: ocorre cara; b) B: ocorre um n´ umero impar; c) C: ocorre o n´ umero 3; d) A ∪ B; e) B ∩ C; f) A ∩ C; g) AC ; h) C C . 5. Numa urna existem duas bolas vermelhas e seis brancas. Sorteando-se uma bola, qual a probabilidade dela ser vermelha? 6. De um baralho de 52 cartas, uma ´e extra´ıda ao acaso. Qual a probabilidade de ocorrer cada um dos eventos abaixo? a) ocorre dama de copas; b) ocorre dama; c) ocorre carta de naipe paus; d) ocorre dama ou rei ou valete; e) ocorre uma carta que n˜ ao ´e um rei. 7. Suponha que estamos interessados em determinar a probabilidade de uma mulher que engravidou ter 52

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

6 PROBABILIDADE

um menino. Em um pa´ıs foram registrados 4.065.014 nascimentos, dos quais 2.081.287 foram meninos e 1.983.727 foram meninas. Ent˜ ao a probabilidade de que uma mulher aleatoriamente selecionada desse a luz a um menino ´e? 8. Selecionado aleatoriamente um estudante da UNIFAL-MG, considere os seguintes eventos: A: o aluno possui cart˜ ao de cr´edito Visa; B: o aluno possui cart˜ ao de cr´edito MasterCard. Suponha que P (A) = 0,5, P (B) = 0,4 e P (A ∩ B) = 0,25. a) Calcule a probabilidade de que o indiv´ıduo selecionado tenha pelo menos um dos dois tipos de cart˜ ao (ou seja, a probabilidade do evento A ∪ B)? b) Qual ´e probabilidade do indiv´ıduo selecionado n˜ao possuir nenhum dos dois tipos de cart˜ao? 9. Suponha que P (A|B) = 0,8, P (A) = 0,5 e P (B) = 0,2. Determine P (B|A). 10. Suponha o cruzamento de duas cobaias heterozigotas, Cc × Cc. Suponha que o gene C ´e dominante para a cor de pelo branca e que seja letal quando o indiv´ıduo resulta homozigoto. Ainda, a cor preta ´e determinada pelo alelo c. Considere, adicionalmente, os seguintes eventos: B: o indiv´ıduo ´e branco; P : o indiv´ıduo ´e preto; V : o indiv´ıduo nasce vivo; M : o indiv´ıduo nasce morto. Calcule as probabilidades e descreva o seu significado: f) P (V |B) g) P (P |V ) h) P (B|M ) i) P (V |P ) j) P (P |M )

a) P (P ) b) P (B) c) P (P ∪ V ) d) P (P ∩ M ) e) P (B|V ) 6.4

Regra do produto e independˆ encia de eventos

A regra do produto pode ser utilizada quando o experimento envolve repeti¸c˜oes. Assim, podese tratar cada repeti¸c˜ ao como um evento e portanto, ao inv´es de trabalhar com an´alise combinat´oria, ´ importante observar a calcula-se a probabilidade de cada evento e posteriormente efetua-se o produto. E dependˆencia entre os eventos, o que ser´ a discutido a seguir. Uma consequˆencia da probabilidade condicional ´e a seguinte: P (A|B) =

P (A ∩ B) =⇒ P (A ∩ B) = P (B) · P (A|B) P (B)

P (B|A) =

P (A ∩ B) =⇒ P (A ∩ B) = P (A) · P (B|A) P (A)

ou

Ou seja, a probabilidade da ocorrˆencia simultˆanea dos eventos A e B ´e dada pelo produto da probabilidade de um deles pela probabilidade condicional do segundo dado o primeiro. Em algumas situa¸c˜ oes podem ocorrer: P (A|B) = P (A) Consequentemente, P (B|A) = P (B) Quando isto acontece os eventos A e B s˜ao independentes. Dois ou mais eventos s˜ao independentes se a ocorrˆencia de um deles n˜ ao afeta a probabilidade do outro. Se dois ou mais eventos n˜ao s˜ ao independentes, diz-se dependentes. • Se os eventos s˜ ao independentes, ent˜ao P (A ∩ B) = P (A) · P (B), ou seja, a probabilidade de ocorrerem os 2 eventos ´e igual ao produto de suas probabilidades individuais; • Se os eventos s˜ ao dependentes, ent˜ ao P (A ∩ B) = P (A) · P (B|A) = P (B) · P (A|B), ou seja, a probabilidade de ocorrerm os 2 eventos ´e igual ao produto da probabilidade de um pela probabilidade condional do outro. ¯ A¯ e B e A¯ e B ¯ tamb´em s˜ao independentes. Se A e B s˜ ao independentes, ent˜ ao: A e B, Exemplo 1: Considere o lan¸camento de uma moeda e de um dado simultaneamente; o resultado obtido no lan¸camento da moeda n˜ ao afeta o do dado; portanto considerando cada lan¸camento ou da moeda ou do dado como um evento, estes podem ser considerados como eventos independentes. Por UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

53


Estat´ıstica B´ asica

6 PROBABILIDADE

outro lado, considerando, uma urna contendo cinco bolas vermelhas e duas azuis, em que s˜ao retiradas duas bolas, sem reposi¸ c˜ ao, o resultado obtido na segunda extra¸c˜ao depender´a do resultado observado na primeira extra¸c˜ ao; adotando cada extra¸c˜ao como um evento, nota-se que os eventos s˜ao dependentes. Exemplo 2: Uma firma produz um lote de 50 agulhas, das quais 6 s˜ao defeituosas. Escolheramse aleatoriamente e testaram-se duas agulhas do lote. Determine a probabilidade de ambas serem boas, se as agulhas foram selecionadas: a) com reposi¸c˜ao e b) sem reposi¸c˜ao. Solu¸c˜ ao: Como neste experimento h´ a repeti¸c˜ ao, pois retira-se uma agulha e em seguida outra pode-se considerar que cada retirada representa um evento. Assim, seja A o evento sair uma agulha boa na primeira retirada e seja B o evento sair uma agulha boa na segunda retirada. a) Considerando um experimento em que uma agulha ´e selecionada e recolocada antes de fazer a segunda sele¸c˜ ao, tem-se um experimento com reposi¸c˜ao. Neste caso a probabilidade de que ambas as agulhas sejam boas pode ser calculada por: P (A ∩ B) = P (A) · P (B) =

44 44 · = 0,774 50 50

Pois os eventos s˜ ao independentes, uma vez que os eventos A e B ocorrem de forma independente. b) Considerando um experimento em que uma agulha ´e selecionada e n˜ao ´e recolocada antes de fazer a segunda sele¸c˜ ao, tem-se um experimento sem reposi¸c˜ao. Neste caso a probabilidade de que ambas as agulhas sejam boas pode ser calculada por: P (A ∩ B) = P (A) · P (B|A) =

44 43 · = 0,772 50 49

Pois os eventos s˜ ao dependentes, uma vez que o evento B depende do acontecimento de A. Exemplo 3: Considere um baralho com 52 cartas. Um experimento consiste em retirar duas cartas ao acaso e sem reposi¸c˜ ao. Qual ´e a probabilidade: a) das duas cartas extra´ıdas serem ouros? Solu¸c˜ ao: O baralho comum possui 52 cartas, as quais s˜ao divididas em 4 naipes com 13 cartas. Ou seja, ♦, ♥, ♣, ♠ (ouros, copas, paus, espadas, respectivamente) que possuem as cartas: A, 2, 3, 4, 5, 6, 7, 8, 9, 10, J, Q, K. Portanto, considerando cada retirada com um evento, tem-se: A = {sair uma carta de ouros na primeira retirada} B = {sair uma carta de ouros na segunda retirada} Portanto, a probabilidade de qua as duas cartas sejam de ouros ´e dada por: P (A ∩ B) = P (A) · P (B|A) =

13 12 1 · = 52 51 17

b) de uma ser dama e a outra ser rei, nesta ordem? Considerando os eventos: A = {sair uma dama na primeira retirada} B = {sair um rei na segunda retirada} Tem-se: 4 4 4 · = P (A ∩ B) = P (A) · P (B|A) = 52 51 663 c) de uma ser dama e a outra ser rei? Considerando os eventos: A = {sair uma dama} B = {sair um rei} Note que agora a ordem n˜ ao importa, portanto pode sair uma dama na primeira retirada e o rei na segunda ou um rei na primeira retirada e a dama na segunda. Como h´a dois resultados de interesse, ´e necess´ ario somar as suas probabilidades. Assim,

54

P (A ∩ B) = P (A) · P (B|A) =

4 4 4 · = 52 51 663

P (B ∩ A) = P (B) · P (A|B) =

4 4 4 · = 52 51 663

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

6 PROBABILIDADE

Portanto, a probabilidade de uma ser dama e a outra ser rei ´e: 4 4 8 + = 663 663 663 6.5

Independˆ encia de trˆ es ou mais eventos

Quando dois eventos Ai e Aj , ∀i, j com i 6= j, s˜ao independentes a probabilidade de ocorrerem os 2 eventos ´e igual ao produto de suas probabilidades individuais, assim: P (Ai ∩ Aj ) = P (Ai ) · P (Aj ) Para trˆes ou mais eventos independentes a probabilidade da ocorrˆencia deles ´e, tamb´em, igual ao produto de suas probabilidades individuais. Portanto, P (Ai ∩ Aj ∩ Ak ) = P (Ai ) · P (Aj ) · P (Ak ) , ∀i, j, k com i 6= j 6= k Genericamente, P

n \ i=1

! Ai

=

n Y

P (Ai ) = P (A1 ) · P (A2 ) · . . . · P (An )

i=1

Exemplo: Considere o lan¸camento de uma moeda 5 vezes. Qual ´e a probabilidade de ocorrer nos trˆes primeiros lances a face cara e nos dois u ´ltimos a face coroa? Solu¸c˜ ao: Considerando cada lan¸camento como um evento, temos A1 , A2 , A3 , A4 , A5 cinco eventos correspondendo, respectivamente, ao resultado cara nos trˆes primeiros lan¸camentos e os dois resultados coroa. Assim, ! 5 5 Y \ 1 1 1 1 1 1 P (Ai ) =P (A1 ) · P (A2 ) · P (A3 ) · P (A4 ) · P (A5 ) = · · · · = Ai = P 2 2 2 2 2 32 i=1 i=1 6.6

Ensaios de Bernoulli

Anteriormente foi apresentado que quando dois ou mais eventos s˜ao independentes, calcula-se a probabilidade de ocorrerem estes eventos pelo produto das probabilidades de cada qual. Entretanto, ´e necess´ ario considerar a ordem do acontecimento desses eventos. Em alguns casos o objetivo poderia ser o de calcular a probabilidade em que o evento de interesse aconte¸ca a qualquer momento em n tentativas. Portanto, h´a necessidade de considerar todas as formas de acontecer este evento nas n tentativas. Se for considerado um experimento em que para cada tentativa (repeti¸c˜ao) h´a duas respostas poss´ıveis, as quais ser˜ ao denominadas por sucesso e fracasso, e independˆ encia, este experimento recebe o nome de ensaios de Bernoulli. O sucesso e fracasso s´ o servem para designar os resultados, n˜ao tem o mesmo significado que na linguagem cotidiana. A probabilidade do sucesso ser´a identificada por p e a do fracasso por q. Como ocorre o evento (sucesso) com probabilidade p ou o seu complementar (fracasso) com probabilidade q, ent˜ ao q = 1 − p. Exemplo 1: Uma moeda ´e lan¸cada 5 vezes. Cada lan¸camento (repeti¸c˜ao independente) ´e um ensaio, em que dois resultados podem ocorrer: cara ou coroa. Pode-se chamar de sucesso o resultado cara 1 1 e de fracasso o resultado coroa. Em cada ensaio, p = e q = . 2 2 Exemplo 2: Uma urna cont´em 4 bolas vermelhas e 6 brancas. Uma bola ´e extra´ıda, observada sua cor e reposta na urna; este procedimento ´e repetido 8 vezes. Cada extra¸c˜ao (repeti¸c˜ao independente) ´e um ensaio, em que dois resultados podem ocorrer: bola vermelha ou bola branca (n˜ao vermelha). O sucesso corresponde ao resultado bola vermelha e fracasso o resultado bola branca (complementar). Em 4 2 6 3 cada caso p = = eq= = . 10 5 10 5 Exemplo 3: Uma urna cont´em 4 bolas vermelhas, 6 brancas e 2 azuis. Uma bola ´e extra´ıda, observada sua cor e reposta na urna; este procedimento ´e repetido 10 vezes. Cada extra¸c˜ao ´e um ensaio, em que dois resultados podem ocorrer, se relacionar o sucesso ao resultado bola vermelha, o fracasso ser´ a 4 1 8 2 o resultado n˜ ao bola vermelha. Em cada caso p = = eq= = . 12 3 12 3 UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

55


Estat´ıstica B´ asica

6 PROBABILIDADE

Exemplo 4: Um dado ´e lan¸cado 100 vezes. Considere os dois resultados: sair o n´ umero “5” ou sair um n´ umero diferente de “5”. Considerando o sucesso o resultado sair o “5”, ent˜ao o fracasso ser´a o 1 5 resultado n˜ ao sair o “5”. Em cada ensaio p = e q = . 6 6 H

I

H

Considere os eventos do experimento citado no exemplo 1 em que uma moeda ´e lan¸cada 5 vezes: 1 A1 : ocorre cara no 1o lan¸camento, P (A1 ) = ; 2 1 o A2 : ocorre cara no 2 lan¸camento, P (A2 ) = ; 2 1 o A3 : ocorre cara no 3 lan¸camento, P (A3 ) = ; 2 1 A4 : ocorre cara no 4o lan¸camento, P (A4 ) = ; 2 1 A5 : ocorre cara no 5o lan¸camento, P (A5 ) = . 2 Ent˜ ao o evento A1 ∩ A2 ∩ . . . ∩ A5 corresponde ao evento sair cara nos 5 lan¸camentos. Como os eventos s˜ ao independentes, P (A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ) = p · p · p · p · p = p5 · q 0 =

1 1 1 1 1 × × × × = 2 2 2 2 2

5 1 1 = . 2 32

Se o interesse ´e calcular a probabilidade de obterem duas caras e em seguida trˆes coroas (nesta C C C ordem), ent˜ ao o evento de interesse corresponde a: A1 ∩ A2 ∩ AC 3 ∩ A4 ∩ A5 . Sendo que Ai corresponde ao evento complementar de Ai . Logo, a probabilidade de ocorrer este evento ´e: C C P A1 ∩ A2 ∩ AC = p · p · q · q · q = p2 · q 3 3 ∩ A4 ∩ A5 1 1 1 1 1 = × × × × 2 2 2 2 2 2 3 1 1 1 . · = = 2 2 32 Neste experimento em qualquer qu´ıntupla ordenada a probabilidade sempre ser´a H

I

1 . 32

H

Agora, supondo que o interesse seja o de calcular a probabilidade de obter duas caras nos 5 lan¸camentos, h´ a 10 diferentes maneiras de acontecer este resultado, pois o sucesso ´e obter duas caras nestes 5 lan¸camentos, n˜ ao importando em qual momento ocorrer´a. Portanto, as maneiras de acontecerem duas caras em cinco lan¸camentos ´e apresentada a seguir, considerando que Ai , com i = 1, 2, 3, 4, 5, o evento sair cara no lan¸camento i e AC i o seu complementar: C C À A 1 ∩ A 2 ∩ AC 3 ∩ A4 ∩ A5 ;

C C Å AC 1 ∩ A 2 ∩ A3 ∩ A 4 ∩ A5 ;

C C Á A 1 ∩ AC 2 ∩ A 3 ∩ A4 ∩ A5 ;

C C Æ AC 1 ∩ A 2 ∩ A3 ∩ A4 ∩ A 5 ;

C C Â A 1 ∩ AC 2 ∩ A3 ∩ A 4 ∩ A5 ;

C C Ç AC 1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ;

C C Ã A 1 ∩ AC 2 ∩ A3 ∩ A4 ∩ A 5 ;

C C È AC 1 ∩ A2 ∩ A 3 ∩ A4 ∩ A 5 ;

C C Ä AC 1 ∩ A 2 ∩ A 3 ∩ A4 ∩ A5 ;

C C É AC 1 ∩ A2 ∩ A3 ∩ A 4 ∩ A 5 .

Sabe-se que cada evento (qu´ıntupla ordenada) a probabilidade relacionada ´e igual a 10 qu´ıntuplas (eventos distintos) a probabilidade ´e: 10 ×

1 e sendo 32

1 10 5 = = 32 32 16

Com conhecimento b´ asico em an´ alise combinat´oria n˜ao ´e necess´ario discriminar as maneiras de ocorrer os sucessos, ou seja, descrever todas as diferentes formas como feito anteriormente, pois o que se interessa ´e calcular o n´ umero de maneiras que ocorre duas caras nos 5 lan¸camentos. Para esta situa¸c˜ ao 56

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

6 PROBABILIDADE

tem-se 5 lan¸camentos em que h´ a 2 sucessos e 3 fracassos, ou seja 5 elementos dos quais h´a 1 elemento que repete 2 vezes e 1 um elemento que repete 3 vezes e a melhor forma de calcular isto ´e por meio da permuta¸c˜ ao de 5 elementos em que 1 elemento repete 2 vezes e outro repete 3 vezes: P52,3 =

5! = 10 2! × 3!

Considerando x sucessos de interesse e n−x fracassos num experimento com n repeti¸c˜oes, ent˜ ao o n´ umero de maneiras de ocorrer x sucessos (e n − x fracassos) ´e: n! n Pnx,n−x = = = Cn,x x x! (n − x)! Como pode se deduzir dos exemplos anterios a probabilidade de cada ´enupla ordenada de x sucessos e n − x fracassos ´e: p × p × . . . × p × q × q × . . . × q = px × q n−x | {z } | {z } x vezes

(n−x) vezes

pois, qualquer ´enupla ordenada deste tipo ´e a interse¸c˜ao de x sucesso(s) e de n − x fracasso(s), ou seja, C x n−x P (A1 ∩ A2 ∩ . . . ∩ Ax ∩ AC . x+1 ∩ . . . ∩ An ) = p × q Portanto, se o interesse ´e calcular a probabilidade de ocorrer(em) x sucesso(s) em n tentativas de uma en´ upla ordenada basta realizar o c´alculo: P (x) = Cn,x × px × q n−x Em que: x: representa o n´ umero de sucessos de interesse; n: representa o n´ umero de repeti¸c˜ oes do experimento; p: representa a probabilidade de ocorrer um sucesso (ou seja, o evento); q: representa a probabilidade de ocorrer um fracasso ou q = 1 − p (n˜ao ocorrer o evento). 6.6.1

Exerc´ıcios

1. Considere um baralho com 52 cartas numeradas, 13 para cada um dos naipes (ouros, copas, espadas e paus). Seja o experimento em que se retira uma carta aleatoriamente, observando seu naipe, n´ umero e/ou cor (vermelha ou preta). Considere os seguintes eventos e calcule o que se pede: A = {a carta retirada ´e ´ as}; V = {a carta retirada ´e vermelha} e E = {a carta retirada ´e de espada}. a) P (A), P (V ) e P (E). ¯ P (V¯ ) e P (E). ¯ b) P (A), c) P (A ∩ V ), P (A ∩ E) e P (V ∩ E). c) P (A ∪ V ), P (A ∪ E) e P (V ∪ E). d) P (A|V ) . Os eventos A e V s˜ ao independentes? e) P (V |E). Os eventos V e E s˜ ao independentes? 2. Suponha que estamos interessados em determinar a probabilidade de uma mulher que engravidou ter um menino. Em um pa´ıs foram registrados 4.065.014 nascimentos, dos quais 2.081.287 foram meninos e 1.983.727 foram meninas. Se desta popula¸c˜ao escolhermos 3 mulheres e supormos que haja independˆencia entre o sexo das crian¸cas nascidas, qual ´e a probabilidade de que as trˆes crian¸cas sejam meninas? 3. Suponha que vocˆe retire de um baralho, aleatoriamente, duas cartas do seguinte modo: retira uma, observa seu naipe, n´ umero e cor, e a coloca de volta. Em seguida, retira a segunda carta, observa seu naipe, n´ umero e cor, e a coloca de volta. Sejam os eventos: A1 = {a primeira carta retirada ´e um ´ as} e A2 = {a segunda carta retirada ´e um ´as}. a) Sem fazer c´ alculos, vocˆe acha que os eventos A1 e A2 s˜ao independentes? Ou seja, vocˆe acha que o fato da primeira carta retirada ter sido um ´as altera a probabilidade de que a segunda carta seja um ´as? b) Ent˜ ao, qual ´e o valor de P (A2 |A1 )? c) Qual ´e a probabilidade das duas cartas retiradas serem ases? Ou seja, calcule P (A1 ∩ A2 ). 4. Numa determinada cidade a probabilidade de nascer um menino, P (M ), ´e igual a duas vezes a probabilidade de nascer uma menina, P (F ). Considerando cinco m˜aes gr´avidas nesta cidade, determinar UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

57


Estat´ıstica B´ asica

6 PROBABILIDADE

a probabilidade: a) de que n˜ ao nas¸ca menina. b) de que nas¸cam 1, 2 ou 3 meninas. c) de que nas¸cam mais de duas meninas. 5. Suponha que foram selecionados cinco indiv´ıduos da popula¸c˜ao de pacientes picados com agulha infectada com hepatite B. Sabendo que a probabilidade de que um indiv´ıduo desenvolva a doen¸ca ´e 30%, calcule: a) A probabilidade de que pelo menos trˆes indiv´ıduos desenvolvam a hepatite B. b) A probabilidade de que no m´ aximo um paciente desenvolva a doen¸ca. 6.6.2

Exerc´ıcios extras

1. Lan¸camos dois dados “honestos”. Qual a probabilidade de se obter uma soma de pontos n˜ao inferior a 10? 2. Dois dados, um verde e um vermelho s˜ao lan¸cados. Seja Ω o conjunto dos pares (a, b) em que a representa o n´ umero do dado verde e b do dado vermelho. Descreva os eventos: a) A: ocorre 3 no dado verde; b) B: ocorrem n´ umeros iguais nos dois dados; c) C: ocorre n´ umero 2 em ao menos um dado; d) D: ocorrem n´ umeros cuja soma ´e 7; e) E: ocorrem n´ umeros cuja soma ´e menor que 7. 3. Um n´ umero ´e escolhido ao acaso entre os 20 inteiros. De 1 a 20. Qual a probabilidade de o n´ umero escolhido: a) ser par; b) ser ´ımpar; c) ser primo; d) quadrado perfeito. 4. Sejam A, B e C trˆes eventos: A = {1,2,3,4,5}; B = {4,5,6,7}; C = {5,9} e Ω = {1,2,3,4,5,6,7,8,9,10} Calcule as probabilidade para os eventos A, B e C. a) nenhum dos trˆes eventos ocorre b) pelo menos um dos trˆes ocorre c) somente A ocorre (B e C n˜ ao ocorrem) d) exatamente um dos eventos ocorre e) A e B ocorrem, mas C n˜ ao ocorre f) os trˆes eventos ocorrem g) exatamente dois dos eventos ocorrem h) pelo menos dois eventos ocorrem i) no m´ aximo dois eventos ocorrem j) no m´ aximo um evento ocorre 5. Uma urna cont´em 3 bolas brancas, 2 vermelhas e 5 azuis. Uma bola ´e escolhida ao acaso na urna. Qual a probabilidade de a bola escolhida ser: a) branca b) vermelha c) azul. 6. Considere dois eventos A: u ´lcera p´eptica e B: estresse constante. Qual o significado de P (A|B)? Explique claramente a diferen¸ca entre P (A|B) e P (B|A). 7. Um dado ´e lan¸cado e o n´ umero da face de cima ´e observado. a) se o resultado obtido for par, qual a probabilidade de ele ser maior ou igual a 5? b) se o resultado obtido for maior ou igual a 5, qual a probabilidade de ele ser par? c) se o resultado obtido for ´ımpar, qual a probabilidade de ele ser menor que 3? d) se o resultado obtido for menor que 3, qual a probabilidade de ele ser ´ımpar? 8. Considere dois eventos, A ={atirador A acerta o alvo} e B ={atirador B acerta o alvo}. Se os atiradores A e B atiram simultaneamente em um alvo, com P (A) = 0,51 e P (B) = 0,32, pede-se: a) Qual ´e a probabilidade do alvo ser atingido quando os eventos A e B s˜ao independentes? b) Qual ´e a probabilidade do alvo ser atingido quando os eventos A e B s˜ao mutuamente exclusivos? 9. Um pesquisador querendo testar a germina¸c˜ao das ervilhas (amarelas e verdes) plantou 500 sementes obtendo os resultados apresentados a seguir: 58

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

Cor Total Amarela Verde Sim 25 40 65 N˜ ao 225 210 435 Total 250 250 500 Sejam os eventos: A: a ervilha plantada germina; B: a ervilha ´e amarela e C: a ervilha ´e verde. Pede-se descrever e determinar as probabilidades: Germina¸c˜ ao

e) P (A ∩ C) f) P (A|B) g) P (C|A) h) P (C|B)

a) P (A) b) P (B) c) P (C) d) P (A ∩ B)

10. Uma experiˆencia consiste em retirar, sucessivamente, 3 cartas de um baralho comum bem embaralhado. Sejam A a ocorrˆencia de um “rei” na primeira retirada; B a ocorrˆencia de um “rei” na segunda e C a de um “rei” na terceira. Exponha em palavras, o significado de cada um dos seguintes s´ımbolos: ¯ ¯ ; a) P (A ∩ B); d) P C|(A ∩ B) ¯ B ¯ e C; ¯ b) P (A ∪ B); e) A, ¯ ¯ ∩ C). f) P (A ∩ B ∪ B c) A¯ + B; 11. Um dado ser´ a lan¸cado 5 vezes. a) Qual a probabilidade que saia a face 1 nos 5 lan¸camentos? b) Qual a probabilidade que a mesma face (qualquer uma) apare¸ca nos 5 lan¸camentos? 12. No cruzamento de ervilhas amarelas homozigotas (AA) com ervilhas verdes homozigotas (aa) ocorrem ervilhas amarelas heterozigotas (Aa). Se estas ervilhas forem cruzadas entre si, ocorrem ervilhas amarelas e verdes, na propor¸c˜ ao de trˆes para uma. Suponha que foram pegas, ao acaso, trˆes ervilhas resultantes do cruzamento de ervilhas amarelas heterozigotas. Qual a probabilidade de as trˆes serem verdes? 13. No cruzamento de pais hemof´ılicos (aa) com pais n˜ao hemof´ılicos (AA) ocorrem filhos n˜ao hemof´ılicos (Aa). Se estes filhos forem cruzados com outros filhos (Aa), ocorrem netos hemof´ılicos e n˜ao hemof´ılicos. Suponha que foram pegos, ao acaso, trˆes netos resultantes destes cruzamentos. Qual a probabilidade de: (nota: os hemof´ılicos s˜ ao do tipo aa) a) os trˆes serem hemof´ılicos b) os trˆes serem n˜ ao hemof´ılicos c) o primeiro ser hemof´ılico e os outros dois n˜ao d) nenhum ser hemof´ılico. 1 14. A probabilidade de que um certo aluno resolva um problema ´e P (A) = a de que outro aluno resolva 2 1 1 ´e P (B) = e de que um terceiro resolva ´e P (C) = . Supondo independˆencia, qual ´e a probabilidade 3 4 de que: a) os trˆes resolvam o problema; b) ao menos um resolva o problema; c) o primeiro aluno resolva e os demais n˜ ao. 15. Um produtor de sementes vende pacotes com 20 sementes cada. Os pacotes que apresentarem mais de uma semente sem germinar s˜ ao indenizados. A probabilidade de uma semente germinar ´e 0,98. a) Qual ´e a probabilidade de que um pacote n˜ao seja indenizado? b) Se o produtor vender 1.000 pacotes, em quantos pacotes se espera indenizar? 7 7.1

˜ DE PROBABILIDADE DISTRIBUIC ¸ AO

Vari´ avel aleat´ oria

Uma vari´ avel aleat´ oria (va) ´e uma vari´avel qualquer que associa a cada evento do espa¸co amostral um n´ umero real (ou uma s´erie de n´ umeros). Como cada evento de um espa¸co amostral est´a associado a uma probabilidade, cada um dos poss´ıveis valores da vari´avel aleat´oria tamb´em estar´a. O conjunto de valores que pode assumir uma vari´avel aleat´oria ´e denominada dom´ınio da vari´ avel aleat´ oria. As vari´ aveis aleat´ o rias ser˜ao representadas por letras mai´ usculas: X, Y, Z e os valores  x1 , x2 , x3 , . . . y1 , y2 , y3 , . . . que assumem por letras min´ usculas:  z1 , z2 , z3 , . . . Alguns s´ımbolos ser˜ ao usados para representar a probabilidade de uma vari´avel aleat´oria: UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

59


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

• P (X = xi ) ou simplesmente P (X = x) ´e a probabilidade de que a vari´avel aleat´oria assuma o valor x; • P (X ≤ x) ´e a probabilidade de que a vari´avel aleat´oria assuma um valor menor ou igual a x; • P (xi ≤ X ≤ xj ) ´e a probabilidade de que a vari´avel aleat´oria assuma um valor maior ou igual a xi e menor ou igual a xj ; • P (X ≥ x) ´e a probabilidade de que a vari´avel aleat´oria assuma um valor maior ou igual a x; • P (X > x) ´e a probabilidade de que a vari´avel aleat´oria assuma um valor maior a x; • P (X < x) ´e a probabilidade de que a vari´avel aleat´oria assuma um valor menor a x; • P (xi < X < xj ) ´e a probabilidade de que a vari´avel aleat´oria assuma um valor maior do que xi e menor do que xj . Nota: por conven¸c˜ ao as vari´ aveis aleat´orias s˜ao sempre quantitativas mesmo referindo-se a atributos ou categorias (vari´ aveis qualitativas). Exemplo: X = n´ıvel de escolaridade: nenhum, prim´ario, secund´ ario, superior, usa-se X = 0, 1, 2, 3, respectivamente. Sendo quantitativas elas podem ser discretas ou cont´ınuas. Exemplo 1: Considere um experimento em que consiste em extrair duas bolas sem reposi¸c˜ao de uma urna que cont´em 2 bolas brancas e 3 vermelhas. O espa¸co amostral13 relacionado a este experimento ´e: Ω = {(B, B), (B, V ), (V, B), (V, V )} Em que: B representa a bola branca e V representa a bola vermelha. Se considerar que o interesse agora fosse o n´ umero de bolas vermelhas obtidas, sem reposi¸c˜ao, nesse experimento, pode-se ent˜ ao relacionar uma vari´avel aleat´oria X: n´ umero de bolas vermelhas obtidas nas duas extra¸c˜ oes, sem reposi¸c˜ ao aos eventos do espa¸co amostral deste experimento. Assim: X = {0, 1, 2} e os valores entre as chaves representam o dom´ınio da vari´avel X, quais sejam: • 0 bola vermelha - (B, B); • 1 bola vermelha - (B, V ) ou (V, B); • 2 bolas vermelhas - (V, V ). Exemplo 2: Um pesquisador selecionou trˆes m˜aes. Um experimento consiste em observar o sexo do bebˆe. Utilizando f para representar o sexo feminino e m para representar o sexo masculino, tem-se o espa¸co amostral: Ω = {(m, m, m), (f, m, m), (m, f, m), (m, m, f ), (f, f, m), (f, m, f ), (m, f, f ), (f, f, f )} Considerando a vari´ avel Y : n´ umero de bebˆes do sexo feminino, ent˜ao Y = {0, 1, 2, 3}, sendo que os valores entre chaves representam o dom´ınio da vari´avel Y . Tais valores significam que podem nascer 0, 1, 2 ou 3 bebˆes do sexo feminino, ou seja: • 0 bebˆe do sexo feminino - (m, m, m); • 1 bebˆe do sexo feminino - (f, m, m) ou (m, f, m) ou (m, m, f ); • 2 bebˆes do sexo feminino - (f, f, m) ou (f, m, f ) ou (m, f, f ); • 3 bebˆes do sexo feminino - (f, f, f ). 7.2

Distribui¸ c˜ ao de probabilidade ou fun¸ c˜ ao de probabilidade

Uma distribui¸c˜ ao de probabilidade ´e uma fun¸c˜ao que relaciona os valores que assume uma vari´ avel aleat´ oria discreta e suas respectivas probabilidades de ocorrˆencia. f : x → P (X = x) 13

Este espa¸co amostral n˜ ao ´ e equiprov´ avel, isto ´ e, a probabilidade de ocorrˆ encia de ao menos um evento ´ e diferente dos demais.

60

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

A distribui¸c˜ ao de probabilidade pode ser representada na forma de uma tabela, na forma de uma fun¸c˜ ao (f´ ormula matem´ atica), ou na forma de um gr´afico. E est´a relacionada a uma vari´avel aleat´oria discreta. Exemplo 1: No exemplo 1 anterior tinha-se como vari´avel aleat´oria X: n´ umero de bolas vermelhas obtidas na duas extra¸c˜ oes, sem reposi¸c˜ ao e, portanto, X = {0, 1, 2} representava o n´ umero de bolas vermelhas que podem ser observadas nas duas extra¸c˜oes. As probabilidades de ocorrˆencia dos eventos podem ser calculadas pela regra do produto, da´ı: • P (B, B) =

1 2 1 · = ; 5 4 10

• P (B, V ) =

2 3 3 · = ; 5 4 10

• P (V, B) =

3 2 3 · = ; 5 4 10

• P (V, V ) =

3 3 2 · = . 5 4 10

Portanto, as probabilidades relacionadas ` a vari´avel X s˜ao: • P (X = 0) =

1 ; 10

• P (X = 1) =

3 3 6 3 + = = ; 10 10 10 5

• P (X = 2) =

3 . 10

A distribui¸c˜ ao de probabilidade da vari´avel X ´e apresentada a seguir: X

0 1 10

P (X = x)

1 3 5

2 3 10

Exemplo 2: Considerando o exemplo 2 anterior, na vari´avel Y : n´ umero de bebˆes do sexo feminino, observou-se que Y = {0, 1, 2, 3}. Naquele espa¸co amostral a cada evento a probabilidade de 1 ocorrˆencia era igual a . Entranto, ´e necess´ario observar que para Y = 0 h´a um evento, para Y = 1 h´ a 8 trˆes eventos, para Y = 2 h´ a trˆes eventos e para Y = 3 h´a um evento. Considerando isto, a distribui¸c˜ ao de probabilidade da vari´ avel aleat´ oria Y ´e: Y P (Y = y) 7.2.1

0 1 8

1 3 8

2 3 8

3 1 8

Propriedades

1. P (X = xi ) ≥ 0; 2.

n X

P (X = xi ) = 1

i=1

7.2.2

M´ edia e variˆ ancia de uma vari´ avel aleat´ oria discreta n X 1. M´edia de uma v. a. discreta X: µX = xi · P (X = xi ); i=1

2 2. Variˆ ancia de uma v. a. discreta X: σX =

n X 2 xi · P (X = xi ) − µ2X . i=1

Exemplo 1: Calcular a m´edia e a variˆancia da vari´avel aleat´oria Y : n´ umero de bebˆes do sexo feminino. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

61


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

Solu¸c˜ ao:

µY

=

n X

yi · P (Y = yi ) = y1 · P (Y = y1 ) + y2 · P (Y = y2 ) + y3 · P (Y = y3 )

i=1

0 · 1/8 + 1 · 3/8 + 2 · 3/8 + 3 · 1/8 = 3/2 = 1,5 bebˆes do sexo feminino n X 2 = yi · P (Y = yi ) − µ2Y =

σY2

i=1

= y12 · P (Y = y1 ) + y22 · P (Y = y2 ) + y32 · P (Y = y3 ) − µ2Y = 02 · 1/8 + 12 · 3/8 + 22 · 3/8 + 32 · 1/8 − (1,5)2 = 3/4 = 0,75 (bebˆes do sexo feminino)2 7.2.3

Distribui¸ c˜ ao binomial ´ E a distribui¸c˜ ao de probabilidade relacionada aos ensaios de Bernoulli. Lembre-se que para ser um ensaio de Bernoulli um experimento tem que possuir as seguintes caracter´ısticas: • Acontecer n repeti¸c˜ oes independentes; • Apresentar apenas dois resultados poss´ıveis (sucesso e fracasso) em cada repeti¸c˜ao. Por se tratar de uma distribui¸c˜ ao de probabilidade te´orica pode-se represent´a-la por meio de uma tabela e, o mais comum, por meio de uma f´ormula denominada fun¸c˜ao de probabilidade: P (X = x) = Cn,x · px · q n−x Em que: • x = 0, 1, . . . , n; • Cn,x =

n! ; x!(n − x)!

• n: ´e o n´ umero de repeti¸c˜ oes no experimento; • x: ´e o n´ umero de sucessos de interesse; • p: ´e a probabilidade de ocorrer um sucesso; • q: ´e a probabilidade de ocorrer o fracasso - q = 1 − p. A vari´ avel aleat´ oria X: n´ umero de sucessos em n repeti¸c˜ oes de um experimento de Bernoulli possui distribui¸c˜ ao binomial, cuja nota¸c˜ ao ´e X ∼ Bin(n, p) e apresenta: • m´edia: µX = n · p; 2 • variˆ ancia: σX = n · p · q.

Exemplo 1: Considere a vari´ avel X: n´ umero de meninas nascidas em 3 nascimentos. Assim, X ∼ Bin(n = 3, p = 1/2). Calcule a probabilidade de nascer, pelo menos 1 mulher. Solu¸c˜ ao: P (X ≥ 1) = P (X = 1) + P (X = 2) + P (X = 3) Por outro lado, P (X ≥ 1) = 1 − P (X = 0) P (X ≥ 1) = 1 − C3,0 · 0,50 · (0,5)3 P (X ≥ 1) = 1 − 1/8 = 7/8 = 0,875. Exemplo 2: Sabendo que a probabilidade de um estudante obter aprova¸c˜ao em certo teste de estat´ıstica ´e igual a 0,80, considerando um grupo de 5 estudantes, determine a probabilidade de que: a) Nenhum seja aprovado. b) Apenas um seja aprovado. c) Ao menos um seja aprovado. d) No m´ aximo dois sejam aprovados. e) O n´ umero m´edio e a variˆ ancia dos aprovados. Solu¸c˜ ao: 62

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

Considerando a vari´ avel X: n´ umero de estudantes aprovados em certo teste de estat´ıstica, ent˜ao X ∼ Bin(n = 5, p = 0,80). Assim, a) P (X = 0) = C5,0 · 0,800 · (0,20)5 = 0,00032 = 0,032% b) P (X = 1) = C5,1 · 0,801 · (0,20)4 = 0,0064 = 0,64% c) P (X ≥ 1)

d) P (X = 2)

=

1 − P (X < 1)

=

1 − P (X = 0)

=

1 − 0,00032 = 0,9997 = 99,97%

= C5,2 · 0,802 · (0,20)3 = 0,0512 = P (X = 0) + P (X = 1) + P (X = 2) = P (X = 0) + P (X = 1) + P (X = 2) =

0,00032 + 0,0064 + 0,0512 = 0,0579 = 5,79%

e) M´edia: µX = n · p = 5 · 0,80 = 4 aprovados 2 Variˆ ancia: σX = n · p · q = 5 · 0,80 · 0,20 = 0,8 aprovados2 . 7.2.4

Distribui¸ c˜ ao Poisson

Trata-se do caso limite da distribui¸c˜ao binomial quando o n´ umero de provas n tende para o infinito (muito grande) e a probabilidade p de ocorrer um sucesso em cada prova ´e vizinha de zero (muito pr´ oxima de zero). Em essˆencia, a distribui¸c˜ao de Poisson ´e a distribui¸c˜ao binomial adequada para eventos independentes e raros, ocorrendo em um per´ıodo praticamente infinito de intervalos. Em geral a vari´avel aleat´ oria ´e n´ umero de elementos (ou indiv´ıduos) que ocorrem em um intervalo de tempo, ou em uma superf´ıcie, ou em volume determinado. A fun¸c˜ ao de probabilidade para uma vari´avel X ∼ P oisson(λ) ´e: P (X = x) =

λx · e−λ , x = 0,1, · · · x!

Em que: • λ: ´e n´ umero m´edio de elementos que ocorrem no intervalo (ou superf´ıcie ou volume); • e = 2,718281 . . . (n´ umero neperiano); • x: n´ umero de ocorrˆencia ou sucessos. A vari´ avel aleat´ oria X: n´ umero de elementos (ou indiv´ıduos) que ocorrem em um intervalo de tempo, ou em uma superf´ıcie, ou em volume determinado possui: • m´edia: µX = n · p = λ; 2 = λ. • variˆ ancia: σX

Exemplo 1: Em um determinado pa´ıs, o n´ umero m´edio mensal de suic´ıdios ´e 2,75. Assumindo que o n´ umero de suic´ıdios segue uma distribui¸c˜ao de Poisson, determine: a) Qual ´e a probabilidade de que nenhum suic´ıdio seja registrado durante determinado mˆes? b) Qual ´e a probabilidade de que no m´ aximo quatro suic´ıdios sejam registrados? c) Qual ´e a probabilidade de que seis ou mais suic´ıdios sejam registrados? Solu¸c˜ ao: Considerando a vari´ avel X: n´ umero de suic´ıdios em um determinado pa´ıs, ent˜ao, X ∼ P oisson(λ = 2,75). Assim: 2,750 · e−2,75 = 0,0639 a) P (X = 0) = 0! b) P (X ≤ 4) =

4 X 2,75x · e−2,75 x=0 0

x! −2,75

2,75 · e 2,751 · e−2,75 2,752 · e−2,75 2,753 · e−2,75 2,754 · e−2,75 + + + + 0! 1! 2! 3! 4! P (X ≤ 4) = 00639 + 0,1758 + 0,2417 + 0,2216 + 0,1523 = 0,8554

P (X ≤ 4) =

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

63


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

c) P (X ≥ 6) = 1 −

5 X 2,75x · e−2,75

x! x=0 P (X ≥ 6) = 1 − [P (X ≤ 4) + P (X = 5)] 2,755 · e−2,75 P (X ≥ 6) = 1 − 0,8554 + 5! P (X ≥ 6) = 1 − [0,8554 + 0,0838] = 1 − 0,9392 = 0,0608 Exemplo 2: Seja X uma vari´ avel aleat´oria que representa o n´ umero de bebˆes em um grupo de 2.000 que morre antes de atingir o primeiro anivers´ario. Nos EUA, esta probabilidade ´e 0,0085. a) Qual ´e o n´ umero m´edio de bebˆes que morre em um grupo desse tamanho? b) Qual a probabilidade de que no m´ aximo cinco bebˆes dentre 2.000 morram em seus primeiros anos de vida? Solu¸c˜ ao: a) O n´ umero m´edio ´e representado por λ = µ = n · p = 2.000 × 0,0085 = 17 b) P (X ≤ 5) =

5 X 17x · e−17 x=0 0 −17

x!

17 · e 171 · e−17 172 · e−17 173 · e−17 174 · e−17 175 · e−17 + + + + + 0! 1! 2! 3! 4! 5! P (X ≤ 5) = 4,1 × 10−08 + 7,0 × 10−07 + 5,9 × 10−06 + 3,3 × 10−05 + 0,0001 + 0,0004 = 0,0006 P (X ≤ 5) =

7.2.5

Exerc´ıcios

0) Determine para cada experimento a vari´avel de interesse e os valores que a vari´avel pode assumir: a) Uma urna cont´em 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente desta urna sem reposi¸c˜ ao. Solu¸c˜ ao: Uma vari´ avel de interesse pode ser X: n´ umero de bolas vermelhas extra´ıdas sem reposi¸c˜ ao de uma urna contendo 12 bolas Os valores que a vari´ avel X assume: 0, 1, 2, ou seja, X = {0, 1, 2}. b) Uma urna cont´em 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se trˆes bolas aleatoriamente desta urna sem reposi¸c˜ ao. c) Uma urna cont´em 12 bolas, sendo 3 vermelhas, 4 brancas e 5 azuis. Retira-se duas bolas aleatoriamente desta urna com reposi¸c˜ ao. d) Em uma maternidade h´ a 4 m˜ aes em trabalho de parto e observa-se o sexo dos nascidos. 1) Considerando trˆes m˜ aes em trabalho de parto e que um pesquisador n˜ao conhece o sexo dos bebˆes: a) Determinar a distribui¸c˜ ao de probabilidades do n´ umero X de meninos nascidos. b) P (1 ≤ X ≤ 3). c) P (X > 2). n X d) Mostre que P (X = x) = 1. x=0

2) Numa determinada cidade a probabilidade de nascer um menino, P (M ), ´e igual a duas vezes a probabilidade de nascer uma menina, P (F ). Considerando cinco m˜aes gr´avidas nesta cidade: a) Determinar a distribui¸c˜ ao de probabilidades do n´ umero X de meninas nascidas. b) P (1 ≤ X ≤ 3). c) P (X > 2). n X d) Mostre que P (X = x) = 1. x=0

3) Determinar a probabilidade de, em dois lances de um par de dados honestos,obter-se um total de 11 pontos: a) uma vez; b) duas vezes. (R: a)17/162; b)1/324.) 4) Suponha que haja em m´edia 2 suic´ıdios por ano numa popula¸c˜ao de 50 000. Em uma cidade de 100.000 habitantes, encontre a probabilidade de que em um dado ano tenha havido: a) 0; b) 1; c) 2; d) 2 ou mais suic´ıdios. (R: a)0,0183; b)0,0732; c)0,1464; d)0,9085.) 5) O n´ umero de casos de t´etano registrado nos Estados Unidos durante um u ´nico mˆes, em 1989, tem uma distribui¸c˜ ao de Poisson com parˆ ametro λ = 4,5. a) Qual ´e a probabilidade de que exatamente um caso de t´etano seja registrado durante um determinado mˆes? b) Qual o n´ umero m´edio de casos de t´etano registrado no per´ıodo de um mˆes? Qual ´e o desvio padr˜ao? 64

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

6) Num teste de 5 quest˜ oes do tipo “classificar a senten¸ca como verdadeira ou falsa” qual a probabilidade de um candidato que responde a todas ao acaso: a) acertar somente a primeira quest˜ao? b) acertar somente uma das quest˜ oes? c) acertar todas as quest˜oes? 7) Um vendedor de ap´ olice de seguros vende a 5 homens, todos da mesma idade e de boa sa´ ude. De acordo com as tabelas atuariais, a probabilidade de um homem, dessa idade particular, estar vivo daqui a 30 anos ´e de 2/3. Determinar a probabilidade de estarem ainda vivos daqui a 30 anos: a) todos os 5 homens; b) apenas 2; c) pelo menos 1 homem. (R: a)32/243; b)40/243; c)242/243.) 8) A m´edia do n´ umero de acidentes por mˆes em certa interse¸c˜ao ´e trˆes. Qual ´e a probabilidade de que, em qualquer mˆes dado, (a) quatro acidentes ocorram nessa interse¸c˜ao? e (b) Qual ´e a probabilidade de que mais de quatro acidentes ocorram em um dado mˆes na interse¸c˜ao? 9) Suponha que a m´edia do n´ umero de peixes que rompem uma barreira seja de 5 por minuto. Qual ´e a probabilidade de que 10 peixes ultrapassam a barreira durante o primeiro minuto? 10) Uma prova ´e composta por 10 testes de m´ ultipla escolha. Cada teste cont´em 5 alternativas, das quais uma, e apenas uma, ´e correta. Qual a probabilidade de que um candidato, respondendo todas ao acaso, acerte apenas uma quest˜ ao? 11) Seja X uma vari´ avel aleat´ oria que representa o n´ umero de bebˆes em um grupo de 2000 que morre antes de atingir o primeiro anivers´ ario. Nos Estados Unidos, a probabilidade de que uma crian¸ca morra durante o primeiro ano de vida ´e 0,0085. a) Qual ´e o n´ umero m´edio de bebˆes que morre em um grupo desse tamanho? b) Qual a probabilidade de que no m´ aximo cinco bebˆes dentre 2000 morram em seus primeiros anos de vida? c) Qual a probabilidade de que entre 15 e 20 bebˆes morram em seus primeiros anos de vida? 12) Ana vai de ˆ onibus onde trabalha todos os dias. Ela sabe que, em m´edia, passam 3 ˆonibus para l´ a no intervalo de meia hora. Hoje ´e dia de uma cirurgia e ela n˜ao pode se atrasar. Sabendo que a vari´avel X ´e o n´ umero de ˆ onibus que vai para o seu trabalho no intervalo de meia hora e que segue distribui¸c˜ ao Poisson, encontre a probabilidade: a) de Ana n˜ ao chegar a tempo. b) de Ana chegar a tempo. 13) A s´ındrome de Aspen afeta 1 em cada 1.000 indiv´ıduos. Numa popula¸c˜ao de 2.500 indiv´ıduos, determine a probabilidade de encontrar: a) menos de 2 indiv´ıduos com a s´ındrome. b) mais de um indiv´ıduo com a s´ındrome. 14) Suponha que foram selecionados cinco indiv´ıduos da popula¸c˜ao de pacientes picados com agulha infectada com hepatite B. Sabendo que a probabilidade de que um indiv´ıduo desenvolva a doen¸ca ´e 30%, calcule: a) A probabilidade de que pelo menos trˆes indiv´ıduos desenvolvam a hepatite B. b) A probabilidade de que no m´ aximo um paciente desenvolva a doen¸ca. 15) A probabilidade de Jo˜ aozinho ganhar um jogo de xadrez contra Mariazinha ´e 1/3. Qual a probabilidade de Jo˜ aozinho ganhar ao menos 1 jogo em um total de 3 jogos? 16) Quais s˜ ao as probabilidades de obterem-se 9 pontos, em seis lances de um par de dados: a) duas vezes; b) pelo menos 2 vezes. (R: a)61.440/531.441; b)72.689/531.441.) 7.3

Distribui¸ c˜ ao normal

Na se¸c˜ ao sobre probabilidade pˆ ode-se notar que os experimentos estudados est˜ao relacionados ` vari´ a aveis qualitativas e vari´ aveis quantitativas discretas. Por exemplo, no lan¸camento de um dado os valores observados s˜ ao discretos; no lan¸camento de uma moeda os resultados observados s˜ao qualitativos nominais (cara ou coroa); na extra¸c˜ ao de bolas de uma urna, a vari´avel ´e qualitativa nominal e assim por diante. Nas situa¸c˜ oes anteriores bastava associar o n´ umero de elementos de interesse com o n´ umero de elementos do espa¸co amostral para encontrar a probabilidade procurada. Por outro lado, quando a caracter´ıstica a ser observada (evento de interesse) se tratar de uma vari´avel cont´ınua (dados antropom´etricos, por exemplo) para calcular as probabilidades desejadas ´e necess´ario adotar um modelo matem´atico para estimar as solu¸c˜ oes. A curva normal, tamb´em denominada de distribui¸c˜ao normal, ´e uma fun¸c˜ao matem´atica muito utilizada porque a maioria dos experimentos pode ser modelado por esta fun¸c˜ao. A sua f´ormula ´e dada por: −(x−µ)2 1 − ∞ < x < +∞ f (x) = √ e 2σ2 , σ 2π UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

65


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

Em que: • µ representa a m´edia da distribui¸c˜ ao; • σ representa o desvio padr˜ ao da distribui¸c˜ao; • π e e s˜ ao constantes irracionais, sendo π = 3,1415 . . . e e = 2,7182 . . .; • x ´e o valor assumido pela vari´ avel X. Na Figura 22 est˜ ao representadas curvas normais com diferentes valores de µ e σ nas quais pode-se observar: (a) curvas normais com diferentes valores de µ e valores iguais de σ; (b) curvas normais com mesmo valor de µ e diferentes valores de σ e (c) diferentes µ e σ.

FIGURA 22 Distribui¸c˜ oes normais com diferentes valores para µ e σ 7.3.1

C´ alculo de probabilidades

Por se tratar de uma distribui¸c˜ ao densidade de probabilidade, ou seja, de uma distribui¸c˜ ao de probabilidade de uma vari´ avel cont´ınua, o c´alculo das probabilidades ser´a realizado calculando-se a ´ area compreendida entre intervalos de valores. A ´area ´e a probabilidade e altura ´e a densidade de probabilidade. Pelo c´ alculo diferencial e integral a ´area sob uma curva limitada por dois valores a e b, sendo a < b , de x ´e determinada pela integral definida por estes valores: Z

b

f (x) dx a

Por se tratar de ´ areas, n˜ ao h´ a sentido calcular a ´area formada por f (a), ou seja x = a, pois neste ponto forma-se apenas uma semirreta de x = a at´e f (x), por defini¸c˜ao uma semirreta n˜ao tem espessura, s´ o comprimento, logo P (X = a) = 0. Considerando a e b, sendo a < b , valores de uma vari´avel X, tem-se: Z b • P (a ≤ X ≤ b) = P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b) = f (x) dx representa a a

probabilidade de x ser um valor entre a e b, ou a ´area sob a curva limitada por a e b;

FIGURA 23 Exemplo de P (a < X < b) +∞

Z • P (X ≥ a) = P (X > a) =

f (x) dx representa a probabilidade de x ser um valor maior do que a

a, ou a ´ area sob a curva limitada por a e +∞; Z a • P (X ≤ a) = P (x < a) = f (x) dx representa a probabilidade de x ser um valor menor do a, −∞

ou a ´ area sob a curva limitada por −∞ e a. 66

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

7.3.2

Condi¸ c˜ oes para que uma fun¸ c˜ ao seja fun¸ c˜ ao densidade de probabilidade

1. f (x) ≥ 0; Z +∞ 2. f (x) dx = 1. −∞

7.3.3

A distribui¸ c˜ ao normal: informa¸ c˜ oes adicionais

A distribui¸c˜ ao normal ´e a mais importante distribui¸c˜ao de probabilidade cont´ınua. Quando uma vari´ avel se distribui segundo uma distribui¸c˜ao normal usa-se expressar em s´ımbolos como X ∼ N (µ, σ), cuja leitura ´e: X segue distribui¸c˜ ao normal com m´edia µ e desvio padr˜ao σ. A distribui¸c˜ ao normal apresenta algumas caracter´ısticas (MUITO IMPORTANTE ISSO!) que devem ser lembradas constantemente: • a curva possui a forma de sino;

• ´e uma curva sim´etrica em µ;

FIGURA 24 Curva normal

• a´ area sob a curva ´e igual a 1. 7.3.4

C´ alculo de probabilidades de vari´ aveis normais

Suponha que X: altura de estudantes de uma universidade segue distribui¸c˜ ao normal com m´edia 170 cm e desvio padr˜ ao 10 cm. Se selecionar um aluno ao acaso qual ´e a probabilidade de que ele tenha mais de 190 cm? Como X ∼ N (µ = 170, σ = 10) e observando todo o conte´ udo anterior, deduz-se que a probabilidade pode ser representada Z ∞ e calculada Z ∞ por: −(x−µ)2 1 √ e 2σ2 dx P (X > 190) = f (x)dx = 190 190 σ 2π Graficamente corresponde a ´ area representada na Figura 25. Como este c´ alculo dif´ıcil de ser realizado manualmente, novos conceitos ser˜ ao necess´ arios.

FIGURA 25 P (X > 190)

7.3.5

Distribui¸ c˜ ao normal padronizada ou distribui¸ c˜ ao normal padr˜ ao ´ E uma distribui¸c˜ ao de probabilidade que apresenta as mesmas caracter´ısticas de uma distribui¸c˜ ao normal qualquer, sendo a caracter´ıstica mais importante a de apresentar m´edia µ = 0 e desvio padr˜ ao σ = 1. Todas as distribui¸c˜ oes de probabilidades normais com m´edia µ e desvio padr˜ao σ quaisquer podem ser transformadas em uma distribui¸c˜ ao normal padronizada. A vantagem ´e que com isto a probabilidade pode ser consultada em uma tabela ao inv´es de se ter que calcular manualmente. A transforma¸c˜ ao da vari´ avel X ∼ N (µ, σ), em uma vari´avel Z, Z ∼ N (µ = 0, σ = 1), sendo Z denominada de vari´ avel normal padronizada com m´edia zero e desvio padr˜ao 1, dada por: z=

x−µ ; σ

Z ∼ N (0,1)

Sendo: • z: valor da vari´ avel Z; • x: valor da vari´ avel X a ser padronizado; • µ: m´edia da vari´ avel normal X; UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

67


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

• σ: desvio padr˜ ao da vari´ avel X. Voltando ao problema de calcular a probabilidade de P (X > 190), sendo X ∼ N (µ = 170, σ = 10), basta realizar o c´ alculo: z=

190 − 170 x−µ = =2 σ 10

Tem-se que P (X > 190) = P (Z > 2) e da´ı a ´area correspondente na distribui¸c˜ ao normal padronizada ´e apresentada pela Figura 26: Esta ´ area, ou melhor, probabilidade, pode ser encontrada na tabela que relaciona os valores da distribui¸c˜ ao Z, normal padronizada, com os respectivos valores FIGURA 26 P (Z > 2) das probabilidades Z > z, ou seja P (Z > z). Diferentes tabelas para a distribui¸c˜ ao normal padronizada podem ser encontradas na literatura, mas todas apresentam mesmos valores de probabilidades, diferindo somente na forma de encontrar uma determinada probabilidade (´ area). Utilizando uma tabela que apresenta P (Z > z), ou seja, a probabilidade acumulada `a direita de Z = z, ent˜ ao P (Z > 2) pode ser encontrada facilmente como ilustra a Figura 27:

FIGURA 27 Valor tabelado para P (Z > 2): ´area sob a curva para Z > 2 Portanto, P (Z > 2) = 0,0228 ou 2,28% Exemplo 1: Continuando com os mesmos dados: X ∼ N (170,10), obtenha: P (154 < X < 171). Solu¸c˜ ao: Primeiramente ´e necess´ ario padronizar os valores da vari´ avel X: 171 − 170 154 − 170 z1 = = −1,6 e z2 = = 0,1 10 10 Logo, P (154 < X < 171) = P (−1,6 < Z < 0,1). Portanto, P (−1,6 < Z < 0,1) = 0,5 − P (Z < −1,6) + 0,5 − P (Z > 0,1) P (−1,6 < Z < 0,1) = 1 − [P (Z > 1,6) + P (Z > 0,1)] P (−1,6 < Z < 0,1) = 1 − [0,0548 + 0,4602] 68

FIGURA 28 P (−1,6 < Z < 0,1)

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

P (−1,6 < Z < 0,1) = 0,4850 Se havia 80 alunos, qual o n´ umero esperado de alunos com altura entre 154 cm e 171 cm? Solu¸c˜ ao: Para saber qual o n´ umero esperado de alunos com altura entre 154 cm e 171 cm basta fazer: 80 × 0,4850 = 38,8 alunos. Exemplo 2: Suponha que o consumo di´ario de cacha¸ca pelos alco´olatras de certa cidade seja normalmente distribu´ıdo com m´edia 320 mL e desvio padr˜ao 50 mL. Selecionando ao acaso um alco´olatra desta cidade, determine a probabilidade de que ele tenha consumo di´ario: a) maior que 330 mL: P (X > 330). Solu¸c˜ ao: tem-se X: consumo di´ ario de cacha¸ca pelos alco´ olatras de certa cidade, X ∼ N (320; 50). 330 − 320 Assim, z = = 0,2 50 Logo, P (X > 330) = P (Z > 0,2) Portanto, P (Z > 0,2) = 0,4207 ou 42,07%.

FIGURA 29 P (Z > 0,2) b) inferior a 370 mL: P (X < 370) 370 − 320 Solu¸c˜ ao: z = = 1,0 50 Assim: P (X < 370) = P (Z < 1,0) Portanto, P (Z < 1,0) = 1 − P (Z > 1) = 1 − 0,1587 = 0,8413 ou 84,13%

FIGURA 30 P (Z < 1) c) entre 240 e 330 mL: P (240 < X < 330). 240 − 320 330 − 320 Solu¸c˜ ao: z1 = = −1,6 e z2 = = 0,2 50 50 Assim: P (240 < X < 330) = P (−1,6 < Z < 0,2) P (−1,6 < Z < 0,2) = 0,5 − P (Z < −1,6) + 0,5 − P (Z > 0,2) P (−1,6 < Z < 0,2) = 1 − [P (Z > 1,6) + P (Z > 0,2)] P (−1,6 < Z < 0,2) = 1 − [0,0548 + 0,4207] = 0,5245 ou 52,45% FIGURA 31 P (−1,6 < Z < 0,2)

d) entre 320 e 380 mL: P (320 < X < 380) 320 − 320 380 − 320 = 0 e z2 = = 1,2 Solu¸c˜ ao: z1 = 50 50 Assim: P (320 < X < 380) = P (0 < Z < 1,2) Logo, P (0 < Z < 1,2) = [P (Z > 0) − P (Z > 1,2)] P (0 < Z < 1,2) = [0,50 − 0,1151] = 0,3849 ou 38,49%

7.3.6

Exerc´ıcios

FIGURA 32 P (0 < Z < 1,2)

0) Observando a vari´ avel relacione assinalando com um “X” a sua classifica¸c˜ao. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

69


˜ DE PROBABILIDADE 7 DISTRIBUIC ¸ AO

Estat´ıstica B´ asica

Classifica¸c˜ao Qualitativa Quantitativa Nominal Ordinal Discreta Cont´ınua

Vari´ avel Cor da pele Idade em anos Grau de desnutri¸c˜ ao Peso de rec´em-nascidos N´ umero de leitos no hospital Classe social (A, B, C, ...) Sexo N´ umero de casos de cˆ ancer de mama N´ umero de homens com enfisema pulmonar Tipagem sangu´ınea Nome de vacinas N´ umero de partos num determinado munic´ıpio Altura de um grupo de pessoas Temperatura corporal Distˆ ancia percorrida por um maratonista N´ umero de bact´erias numa placa de petri N´ umero de c´ aries Circunferˆencia cef´ alica

1) Uma empresa usa anualmente milhares de lˆampadas el´etricas que permanecem acesas continuamente, dia e noite. A vida de uma lˆ ampada pode ser considerada uma vari´avel aleat´oria normal, com m´edia de 50 dias e desvio padr˜ ao de 15 dias. Em 1o de janeiro, a companhia instalou 8000 lˆampadas novas. Aproximadamente quantas dever˜ ao ser substitu´ıdas at´e 1o de fevereiro? 2) Suponha que X seja distribu´ıda, normalmente, com uma m´edia de 10 e um desvio padr˜ao de 2. Determine o seguinte: a) P (X < 13) b) P (X > 9) c) P (6 < X < 14) d) P (2 < X < 4) 3) Dentre as mulheres dos Estados Unidos de 18 a 74 anos, a press˜ao sangu´ınea diast´olica ´e normalmente distribu´ıda com m´edia µ = 77 mm Hg e desvio padr˜ao σ = 11,6 mm Hg. a) Qual ´e a probabilidade de que uma mulher selecionada aleatoriamente tenha press˜ao sangu´ınea diast´ olica menor que 60 mm Hg? b) Qual a probabilidade de que ela tenha press˜ao sangu´ınea diast´olica maior do que 90 mm Hg? c) Qual a probabilidade de que ela tenha press˜ao sangu´ınea diast´olica entre 60 e 90 mm Hg? 4) Suponha que o tempo de coagula¸c˜ ao em seres humanos seja uma vari´avel aleat´oria com distribui¸c˜ ao normal, sendo a m´edia igual a 7 minutos e desvio padr˜ao 1 minuto. Em um exame hematol´ogico qualquer, determine a probabilidade de que um indiv´ıduo apresente tempo de coagula¸c˜ao: a) entre 8 e 9 minutos. b) mais de 7 minutos e 45 segundos. 5) A quantidade de ´ agua destilada produzida por certa m´aquina tem distribui¸c˜ao normal com valor m´edio de 64 on¸cas e desvio padr˜ ao de 0,78 on¸ca. Qual o volume x do recipiente que assegurar´a que ocorra transbordamento em apenas 0,5% das vezes? Ou seja, qual o valor de x tal que P (X > x) = 0,005? 6) A vida u ´til de centr´ıfugas ´e de 1,5 ano, com desvio padr˜ao de 0,3 ano. Se os defeitos distribuemse normalmente, que percentagem das centr´ıfugas vendidas necessitar´a de conserto antes de expirar o per´ıodo de garantia de um ano, ou seja P (X < 1)? 7) Considerando Z uma vari´ avel aleat´ oria normal padronizada, ou seja Z ∼ (µ = 0, σ = 1). Fa¸ca ilustra¸c˜ oes e calcule as probabilidades: a) P (0 < Z < 1) b) P (Z < 1,37) c) P (Z > −1,23) 8) Determine o valor de z nas situa¸c˜ oes seguintes: a) P (Z > z) = 0,004 b) P (Z > z) = 0,025 c) P (Z > z) = 0,03 d) P (Z > z) = 0,04 e) P (Z > z) = 0,05 f) P (Z > z) = 0,15 70

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

9) Determinar a ´ area limitada pela curva normal em cada um dos casos. a) Entre z = 0 e z = 1,2 b) Entre z = −0,68 e z = 0 c) Entre z = −0,46 e z = 2,21 d) Entre z = 0,81 e z = 1,94 ` esquerda de z = −0,6 e) A ` direita de z = −1,28 f) A ` direita de z = 2,05 e ` g) A a esquerda de z = −1,44 10) Determinar os valores de z, os quais se referem `as ´areas limitadas pela curva normal, em cada um dos casos: a) a ´ area entre 0 e z ´e 0,3770; b) a ´area `a esquerda de z ´e 0,8621; c) a ´area entre −1,5 e z ´e 0,0217. (Resp: a)1,16; b)1,09; c)−1,35) 11) Considere uma vari´ avel aleat´ oria X ∼ N (40,15). Encontre as probabilidades: a) P (X < 43) b) P (X > 46) c) P (38 ≤ X ≤ 42) d) P (X < 30) e) Qual ´e o valor de X que tem 80% de ´ area acima dele? 8 8.1

˜ TEORIA DA ESTIMAC ¸ AO

Introdu¸ c˜ ao

Ao estudar t´ecnicas de amostragem foi poss´ıvel notar que de uma popula¸c˜ao de tamanho N pode-se obter amostras de tamanho n com diferentes elementos. Exemplo: Considere uma popula¸c˜ao composta por N = 6 indiv´ıduos: A, B, C, D, E e F cujos valores da vari´ avel de interesse X s˜ ao: 2, 3, 6, 8, 11 e 18, respectivamente. Suponha que ser˜ao realizados 2 sorteios de tamanho n = 2 por diferentes pesquisadores. Um pesquisador poder´a sortear os indiv´ıduos A e E, cujos valores s˜ ao: 2 e 11. O outro poder´a sortear C e E, com valores 6 e 11. Como pˆ ode ser observado, mesmo que as amostras possuam o mesmo tamanho, n = 2, os elementos de uma amostra n˜ ao s˜ ao necessariamente iguais aos da outra amostra, de tal maneira que as estimativas da m´edia, variˆ ancia, propor¸c˜ ao etc obtidas em cada uma das amostras podem ser diferentes entre elas e em rela¸c˜ ao aos parˆ ametros da popula¸c˜ao. Mas por que trabalhar com amostras? O principal objetivo ´e extrair informa¸c˜oes sobre os parˆ ametros desconhecidos da popula¸c˜ ao. Suponha, por exemplo, que se quer chegar a uma conclus˜ ao sobre a propor¸c˜ ao de eleitores que votar˜ ao em um candidato para a presidˆencia. Seria inadequado e imposs´ıvel coletar informa¸c˜ oes de todos os eleitores para calcular o parˆametro p que representa a propor¸c˜ ao populacional; ao inv´es disso, uma amostra aleat´oria de eleitores ´e selecionada e a propor¸c˜ao pˆ de eleitores que votar˜ ao no candidato ´e calculada; esse valor pˆ ´e usado para fazer uma inferˆencia relacionada com a verdadeira propor¸c˜ ao p. 8.2

Distribui¸ c˜ ao de amostragem

Considerando todas as amostras poss´ıveis de tamanho n (com ou sem reposi¸c˜ao) que podem ser extra´ıdas de uma popula¸c˜ ao de tamanho N , para cada uma destas amostras pode-se calcular a m´edia, o desvio padr˜ ao, a propor¸c˜ ao etc, que ir´ a variar (ou n˜ao) de amostra para amostra. Desse modo, obt´em-se uma distribui¸c˜ ao da grandeza que ´e denominada de distribui¸c˜ao amostral ou distribui¸c˜ao de amostragem. Se, por exemplo, a grandeza estat´ıstica particular adotada for a m´edia da amostra, a distribui¸c˜ ao ´e denominada distribui¸c˜ ao amostral das m´edias. Por conseguinte, pode-se ter a distribui¸c˜ao das variˆancias, das propor¸c˜ oes etc. Dessas distribui¸c˜ oes amostrais, pode-se obter a m´edia, a variˆancia, a propor¸c˜ao etc. Em consequˆencia disso, pode-se falar em desvio padr˜ao ou m´edia da distribui¸c˜ao amostral, seja ela das m´edias, ou das variˆ ancias, ou das propor¸c˜ oes etc. Mas qual ´e o objetivo de se obter a distribui¸c˜ao de amostragem de uma popula¸c˜ao? A distribui¸c˜ ao amostral faz a liga¸c˜ ao entre a estat´ıstica descritiva e a inferˆencia estat´ıstica. Conhecendo-se a distribui¸c˜ ao amostral de um parˆ ametro (seja m´edia, desvio padr˜ao, propor¸c˜ao etc) e usando a inferˆencia estat´ıstica pode-se obter conclus˜ oes sobre o parˆametro populacional desconhecido usando as informa¸c˜oes da amostra. A distribui¸c˜ ao amostral de uma estat´ıstica (m´edia, desvio padr˜ao, propor¸c˜ao etc) ´e feita considerando-se todas as amostras poss´ıveis de tamanho n obtidas de uma popula¸c˜ao e as estimativas da estaUNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

71


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

t´ıstica adotada. Portanto, s˜ ao v´ arias as distribui¸c˜oes amostrais, sendo que ser˜ao abordadas apenas a das m´edias e a das propor¸c˜ oes. 8.2.1

Distribui¸ c˜ ao amostral das m´ edias

Considere uma popula¸c˜ ao composta por 3 indiv´ıduos: A, B e C cuja medida da vari´avel de interesse X apresenta os seguintes valores: 1, 2 e 3. a) Determine µ e σ 2 (parˆ ametros populacionais). N 3 X X xi xi 1+2+3 6 i=1 i=1 µ= = = = =2 N 3 3 3  1 σ = N 2

N X

N X  x2i −    i=1

!2  xi

i=1

N

  3  1 X   x2i − =   3   i=1

3 X

!2  xi

i=1

3

  1 62 2  14 − = =  3 3 3 

Obs.: Ser˜ ao usados µ e σ 2 pois os dados s˜ ao oriundos de uma popula¸c˜ao, s˜ao parˆametros populacionais. b) Fa¸ca o histograma dos valores populacionais X = {1, 2, 3}.

FIGURA 33 Gr´afico dos valores populacionais c) Apresente todas as amostras de tamanho n = 2 que podem ser obtidas com reposi¸c˜ao, determine a m´edia de cada valor da vari´ avel em cada amostra.

Amostra (A, A) (A, B) (A, C) (B, A) (B, B)

TABELA 26 Todas as amostras e m´edias amostrais de tamanho n = 2 Valores amostrados M´edia Amostra Valores amostrados (1, 1) 1,0 (B, C) (2, 3) (1, 2) 1,5 (C, A) (3, 1) (1, 3) 2,0 (C, B) (3, 2) (2, 1) 1,5 (C, C) (3, 3) (2, 2) 2,0

M´edia 2,5 2,0 2,5 3,0

d) Fa¸ca o gr´ afico da distribui¸c˜ ao das m´edias.

FIGURA 34 Gr´afico da distribui¸c˜ao das m´edias 72

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

σ e) Verifique que µX¯ = µ e σX¯ = √ para (c), ou seja que a m´edias das m´edias ´e igual `a m´edia populacional n e que o erro padr˜ ao da m´edia ´e igual ` a raz˜ ao entre o desvio padr˜ao populacional e a raiz do tamanho da amostra. ¯ ´e denominada distribui¸c˜ X ao amostral da m´edia e para este caso NX¯ = 9. ario calcular a m´edia das m´edias da tabela anterior. A m´edia das Para verificar que µX¯ = µ ´e necess´ m´edias, µX¯ , ´e: 9 X X¯i 1,0 + 1,5 × 2 + 2,0 × 3 + 2,5 × 2 + 3,0 µX¯ = i=1 = = 2 que ´e igual a µ = 2 9 9 2 A variˆ ancia das m´edias σX¯ ´e dada por:  !2  NX ¯ X N ¯ X¯i  X X  1 182 1 1 2   i=1 2 ¯ X − = σX 39 − = =   i ¯  9 NX¯  i=1 NX¯ 9 3   r

Assim, σX¯

σ = √ =⇒ n

r

2 1 3 = √ 3 2

σ Como pˆ ode ser observado, µX¯ = µ e σX¯ = √ . Esta rela¸c˜ao nos remete ao Teorema do Limite n Central. 8.2.2

Teorema do Limite Central

Desde que a distribui¸c˜ ao da popula¸c˜ao original tenha m´edia µ e desvio padr˜ao σ, a distribui¸c˜ ao amostral das m´edias calculadas para amostras de tamanho n tem trˆes propriedades importantes: • A m´edia da distribui¸c˜ ao amostral das m´edias µX¯ ´e idˆentica `a m´edia µ da popula¸c˜ao: µX¯ = µ. σ • O desvio padr˜ ao da distribui¸c˜ ao amostral das m´edias σX¯ ´e igual `a √ . Essa estat´ıstica ´e conhecida n como erro padr˜ ao da m´edia.

• Com a condi¸c˜ ao de que n seja suficientemente grande, a forma da distribui¸c˜ao amostral ´e aproximadamente normal. ` medida que n aumenta, o histograma da distribui¸c˜ao das m´edias amostrais vai se tornando A mais concentrado em torno da m´edia populacional. Tamb´em, quando n for suficientemente grande a distribui¸c˜ ao das m´edias vai se aproximando da distribui¸c˜ao normal independente da distribui¸c˜ao original da popula¸c˜ ao. Essa situa¸c˜ ao ´e conhecida como teorema do limite central. Note que, `a medida que o tamanho da amostra aumenta, a distribui¸c˜ao das m´edias amostrais tende para uma distribui¸c˜ao normal ¯ −µ σ X com m´edia µ e desvio padr˜ ao √ . Assim, a distribui¸c˜ao de Z dada por Z = σ ´e aproximadamente n √ n normal com m´edia 0 e variˆ ancia 1. Este resultado ´e extremamente importante, pois implica que muitas distribui¸c˜oes amostrais podem ser modeladas pela curva normal, mesmo quando a popula¸c˜ao de origem n˜ao ´e de forma alguma normal. Qual ´e o tamanho n da amostra para que a curva normal seja um modelo apto para determinada distribui¸c˜ ao amostral? Como sugere a Figura 35 em geral o teorema do limite central produz distribui¸c˜oes ¯ mesmo quando os tamanhos amostrais sejam modestos. aproximadamente normais para X Uma ilustra¸c˜ ao do teorema do limite central pode ser visualizada na Figura 35 em que s˜ ao consideradas 3 popula¸c˜ oes com diferentes distribui¸c˜oes de probabilidades das quais foram obtidas todas as amostras de tamanho n = 5, 10 e 30. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

73


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

FIGURA 35 Distribui¸c˜ ao de probabilidade da popula¸c˜ao e distribui¸c˜oes amostrais para diferentes n 8.2.3

Distribui¸ c˜ ao amostral das propor¸ c˜ oes

Admita que uma popula¸c˜ ao possua uma caracter´ıstica dicotˆomica, como vivo/morto, com dor/sem dor, sim/n˜ ao, 0/1 etc. Geralmente ao resultado de interesse dessa caracter´ıstica dicotˆomica da-se o nome de “sucesso” e ao outro de “fracasso”. Considere que a propor¸c˜ao de sucesso na popula¸c˜ ao ´e p e que a propor¸c˜ ao de fracasso ´e q = 1 − p e a propor¸c˜ao de sucessos na amostra ´e pˆ e a propor¸c˜ao de fracassos na amostra ´e qˆ = 1 − pˆ. Se em uma popula¸c˜ao de tamanho N for extra´ıda todas as amostras de tamanho n e para cada amostra for determinado a propor¸c˜ao pˆ de sucessos, tem-se: TABELA 27 Todas as k amostras de tamanho n e propor¸c˜oes pˆi Amostra Tamanho Estimador 1 n pˆ1 = nn1 2 n pˆ2 = nn2 3 n pˆ3 = nn3 .. .. .. . . . k n pˆk = nnk Nota: ni representa o n´ umero de sucessos observados na amostra i

Fazendo a distribui¸c˜ ao de pˆ tem-se a distribui¸c˜ao amostral das propor¸c˜oes, cuja m´edia e erro padr˜ ao de pˆ s˜ ao: r p(1 − p) µpˆ = p e σpˆ = n 8.2.4

Exerc´ıcios

1) Considere uma popula¸c˜ ao composta por 6 indiv´ıduos: A, B, C, D, E e F cuja medida da vari´avel de interesse X apresenta os seguintes valores: 2, 3, 6, 8, 11 e 18. a) Determine µ e σ 2 . b) Apresente todas as amostras de tamanho n = 2 que podem ser obtidas com reposi¸c˜ao, determine a m´edia de cada valor da vari´ avel de cada amostra. σ c) Verifique que µX¯ = µ e σX¯ = √ para (b). n 2) Considere uma popula¸c˜ ao em que p = 0,10. Se extra´ırem amostras de tamanhos n = 5 e n = 50, qual ´e o erro padr˜ ao de pˆ para as duas distribui¸c˜oes amostrais? 74

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

3) Entre os adultos nos Estados Unidos, a distribui¸c˜ao de n´ıveis de albumina (um tipo de prote´ına) no fluido cerebroespinhal ´e aproximadamente sim´etrica apresentando m´edia µ = 29,5mg/100mL e desvio padr˜ ao σ = 9,25 mg/100mL. Suponha que vocˆe selecione amostras repetidas de tamanho 20 dessa popula¸c˜ ao e calcule a m´edia para cada amostra. a) Se vocˆe selecionasse todas as amostras aleat´orias de tamanho 20, qual seria a m´edia das m´edias das amostras? b) Qual a probabilidade de que a quantidade m´edia de albumina das amostras de tamanho 20 seja maior x ¯−µ que 33 mg/100mL? Use: z = σ √ n 4) Seja X ∼ N (µ = 80, σ 2 = 26). Dessa popula¸c˜ao retiramos uma amostra de n = 25. Calcular: ¯ > 83) a) P (X ¯ ≤ 82) b) P (X ¯ − 2σX¯ ≤ µ ≤ X ¯ + 2σX¯ c) P X 5) Sabe-se que o peso de adultos possui m´edia de 65 kg e desvio padr˜ao de 10 kg. Num elevador est´ a escrito que ele suporta uma carga m´ axima de 560 kg ou 8 pessoas. Qual ´e a probabilidade de que o elevador tenha o seu limite ultrapassado por esse n´ umero de pessoas? A especifica¸c˜ao do n´ umero de pessoas est´ a correta? 6) Considere uma popula¸c˜ ao de respostas de trˆes indiv´ıduos a respeito de uma pesquisa do tipo dicotˆomica, cujos valores s˜ ao 0, 1 e 0. Apresente todas as amostras de tamanho n = 2 que podemrser obtidas com p(1 − p) . reposi¸c˜ ao, determine o estimador pˆ de cada amostra. Verifique que µpˆ = p e que σpˆ = n 8.3

Estima¸ c˜ ao pontual

Este m´etodo de estima¸c˜ ao fornece um valor de estimativa para o parˆametro de interesse. Os estimadores mais comuns s˜ ao: x ¯, s2 , pˆ. O problema ´e que duas amostras diferentes muito pouco provavelmente fornecer˜ ao a mesma estimativa para o parˆametro de interesse. Portanto, a estima¸c˜ao pontual n˜ ao transmite o grau de incerteza envolvido sobre a afirma¸c˜ao de qu˜ao perto est´a a estimativa do valor do parˆ ametro. Por exemplo, n˜ ao se pode afirmar qu˜ao perto x ¯ est´a de µ em nenhuma situa¸c˜ao. 8.4

Estima¸ c˜ ao intervalar

A estima¸c˜ ao intervalar ou estima¸c˜ao por intervalo fornece um intervalo de valores razo´avel no qual se presume que contenha o parˆ ametro de interesse com certo grau de confian¸ca. 8.4.1

Intervalo de confian¸ ca para a m´ edia µ de uma popula¸ c˜ ao normal com variˆ ancia populacional σ 2 conhecida

Quando se estudou a distribui¸c˜ ao normal viu-se que quando X ∼ N (µ, σ) ´e poss´ıvel transformar X na vari´ avel Z ∼ N (µ = 0, σ = 1) por meio de: Z=

x−µ σ

. Pelo teorema do limite central a` medida que o tamanho da amostra aumenta, a distribui¸c˜ ao σ das m´edias amostrais tende para uma distribui¸c˜ao normal com m´edia µ e desvio padr˜ao √ , ou seja, n σ ¯ ∼ N µ, √ , e, consequentemente, a transforma¸c˜ao da vari´avel X ¯ em Z faz-se por: X n Z=

¯ −µ X σ √ n

. Para uma vari´ avel aleat´ oria normal padronizada, 95% das observa¸c˜oes se encontram entre −1,96 e 1,96. Ou seja, a probabilidade de que Z assuma um valor entre −1,96 e 1,96 ´e: P (−1,96 < Z < 1,96) = 0,95 A probabilidade acima pode ser representada na Figura 36, sendo mostradas, tamb´em, as ´areas UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

75


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

das caudas da curva.

FIGURA 36 Probabilidade da a´rea compreendida entre −1,96 e 1,96 e das caudas Substituindo Z por

¯ −µ X pode-se escrever: σ √ n   ¯ X −µ   P −1,96 < σ < 1,96 = 0,95 √ n

Na express˜ ao acima, pode-se manipular a desigualdade dentro dos parˆenteses sem alterar a σ afirma¸c˜ ao da probabilidade. Assim, multiplicando, os trˆes termos da desigualdade por √ , que ´e o erro n padr˜ ao da m´edia, tem-se: σ ¯ − µ < 1,96 · √σ P −1,96 · √ < X = 0,95 n n ¯ obt´em-se: E por conseguinte subtraindo cada termo por X, σ ¯ < −µ < 1,96 · √σ − X ¯ = 0,95 P −1,96 · √ − X n n Por fim, multiplicando por −1 e rearranjando os termos dentro dos parˆenteses, chega-se a: σ σ ¯ ¯ = 0,95 P X − 1,96 · √ < µ < X + 1,96 · √ n n ¯ n˜ O intervalo de confian¸ca ´e uma interpreta¸c˜ao dessa afirma¸c˜ao probabil´ıstica. Note que X ao est´ a mais no centro da desigualdade e portanto a afirma¸c˜ao da probabilidade se refere a µ. As quantidades σ σ ao denominados limites de confian¸ca de 95% para a m´edia da popula¸c˜ao. −1,96 · √ e 1,96 · √ s˜ n n Se x ¯ ´e a m´edia de uma amostra aleat´oria de tamanho n de uma popula¸c˜ao com variˆancia conhecida σ 2 , um intervalo de confian¸ca (IC) de 95% para µ ´e dado por: σ σ IC95% (µ) = x ¯ − 1,96 · √ , x ¯ + 1,96 · √ n n Genericamente um intervalo de confian¸ca para µ pode ser representado por: σ σ IC1−α (µ) = x ¯ − zα/2 · √ , x ¯ + zα/2 · √ n n Em que: • 1 − α ´e o n´ıvel de confian¸ca ou grau de confian¸ca ou coeficiente de confian¸ca; • α ´e o n´ıvel de significˆ ancia; • zα/2 ´e o valor de z que limita uma ´area de α/2 na extremidade superior da distribui¸c˜ao normal padr˜ ao e −zα/2 ´e o valor de z que limita uma ´area de α/2 na extremidade inferior da distribui¸c˜ao14 . Este intervalo significa que se forem retiradas muitas amostras de tamanho n de uma popula¸c˜ao, 1 − α intervalos de confian¸ca ir˜ ao incluir o valor do parˆametro µ. Por exemplo, se observar 100 amostras 14 z α/2 corresponde a um valor de z de modo que P (Z > zα/2 ) = α/2 e −zα/2 corresponde a um valor de z tal que P (Z < −zα/2 ) = α/2. Dado α/2 busca-se na tabela o valor de z, ou seja de zα/2 .

76

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

de tamanho n, se 1−α = 0,95 e para cada uma dessas 100 amostras for calculado o intervalo de confian¸ca, aproximadamente 95 intervalos incluir˜ ao µ. Exemplo: As distribui¸c˜ oes das press˜oes sangu´ıneas sist´olicas e diast´olicas para mulheres diab´eticas entre 30 e 34 anos tˆem m´edias desconhecidas. Entretanto, seus desvios padr˜ao s˜ao σs = 11,8 mmg Hg e σd = 9,1 mmg Hg, respectivamente. a) Uma amostra aleat´ oria de dez mulheres ´e selecionada dessa popula¸c˜ao. A press˜ao sangu´ınea sist´olica m´edia para a amostra ´e x ¯ = 130 mmg Hg. Calcule um intervalo de confian¸ca de 95% para µs , a verdadeira press˜ ao sangu´ınea sist´ olica m´edia. Resolu¸c˜ ao: σ σ ¯ + zα/2 · √ IC1−α (µ) = x ¯ − zα/2 · √ , x n n 11,8 11,8 IC95% (µ) = 130 − 1,96 · √ , 130 + 1,96 · √ 10 10 IC95% (µ) = [122,69, 137,31] H

I

H

b) Interprete esse intervalo de confian¸ca. Resolu¸c˜ ao: Pode-se afirmar com 95% de confian¸ca que a verdadeira m´edia da press˜ao sangu´ınea sist´olica para mulheres diab´eticas entre 30 e 34 anos ´e um valor entre 122,69 e 137,31 mmg Hg.

H

I

H

c) A press˜ ao sangu´ınea diast´ olica m´edia para a amostra de tamanho 10 ´e x ¯ = 84 mmg Hg. Encontre um intervalo de confian¸ca de 90% para µd , a verdadeira press˜ao sangu´ınea diast´olica m´edia da popula¸c˜ao. Resolu¸c˜ ao: σ σ √ √ IC1−α (µ) = x ¯ − zα/2 · ,x ¯ + zα/2 · n n 9,1 9,1 IC90% (µ) = 84 − 1,64 · √ , 84 + 1,64 · √ 10 10 IC90% (µ) = [79,28, 88,72] H

I

H

d) Calcule um intervalo de confian¸ca com 99% para µd . Resolu¸c˜ ao: σ σ IC1−α (µ) = x ¯ − zα/2 · √ , x ¯ + zα/2 · √ n n 9,1 9,1 IC99% (µ) = 84 − 2,57 · √ , 84 + 2,57 · √ 10 10 IC99% (µ) = [76,60, 91,40] H

I

H

e) Como o intervalo de confian¸ca de 99% se compara ao intervalo de 90%? Resolu¸c˜ ao: Quanto maior o n´ıvel de confian¸ca com que o intervalo inclui a verdadeira m´edia populacional, maior ´e o valor do escore z, maior ´e a margem de erro e mais amplo ´e o intervalo de confian¸ca. H UNIFAL-MG/Alfenas

I

H

Profs. Fl´ avio Bittencourt/Adriana Dias

77


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

8.4.2

Intervalo de confian¸ ca para a m´ edia µ de uma popula¸ c˜ ao normal com variˆ ancia populacional σ 2 desconhecida x ¯−µ A vari´ avel Z = σ tem distribui¸c˜ao normal. Quando a variˆancia populacional σ 2 n˜ao ´e √ n x ¯−µ 2 conhecida, deve-se usar s , estimador de σ 2 . Consequentemente deve-se adotar a vari´avel T = s √ n para substituir a vari´ avel Z. A vari´ avel T possui distribui¸c˜ ao t de Student com n´ıvel de significˆancia α e com (n − 1) graus de liberdade: ¯ −µ X T = ∼ t(α, n−1) s √ n Quando n ´e grande, s2 se aproxima bastante de σ 2 , fazendo com que a vari´avel T se aproxime da vari´ avel Z. Por outro lado, quando n ´e pequeno, isso n˜ao ocorre. Tal qual a normal padronizada a distribui¸c˜ao t de Student ´e unimodal, sim´etrica em zero, tem a forma de sino e ´ area sob a curva ´e igual a 1. A distribui¸c˜ao t tem uma propriedade denominada graus de liberdade que medem o volume de informa¸c˜ao dispon´ıvel nos dados que podem ser usados para estimar σ 2 , por este motivo medem a confiabilidade de s2 como um estimador de σ 2 . Portanto, para cada poss´ıvel valor de graus de liberdade h´ a uma diferente distribui¸c˜ao t. Por exemplo, considerando os casos abaixo, pode-se observar que em cada situa¸c˜ao, t(α, n−1) apresenta um valor diferente de t tabelado. a) t(0,01; 20) = 2,528 b) t(0,025; 20) = 2,086 c) t(0,05; 20) = 1,725 d) t(0,01; 14) = 2,624 e) t(0,025; 14) = 2,145 f) t(0,05; 14) = 1,761 Semelhantemente, a probabilidade de que µ esteja contida num intervalo com 1−α de confian¸ca quando a variˆ ancia populacional ´e desconhecida ´e dado por: s s P x ¯ − t(α/2, n−1) · √ < µ < x ¯ + t(α/2, n−1) · √ =1−α n n Sendo adotada a seguinte nota¸c˜ ao em forma de intervalo de confian¸ca: s s IC1−α (µ) = x ¯ − t(α/2, n−1) · √ , x ¯ + t(α/2, n−1) · √ n n Em que: • 1 − α ´e o n´ıvel de confian¸ca ou grau de confian¸ca ou coeficiente de confian¸ca; • α ´e o n´ıvel de significˆ ancia; • t(α/2, n−1) ´e o valor que limita uma ´ area de α/2 na extremidade superior da distribui¸c˜ao t de Student e −t(α/2, n−1) ´e o valor que limita uma ´area de α/2 na extremidade inferior da distribui¸c˜ao; • (n − 1) representa os graus de liberdade da distribui¸c˜ao t. Exemplo: As distribui¸c˜ oes das press˜oes sangu´ıneas sist´olicas e diast´olicas para mulheres diab´eticas entre 30 e 34 anos tˆem m´edias desconhecidas. a) Uma amostra aleat´ oria de dez mulheres ´e selecionada dessa popula¸c˜ao. A press˜ao sangu´ınea sist´olica m´edia para a amostra ´e x ¯ = 130 mmg Hg com desvio padr˜ao s = 11,8 mmg Hg. Calcule um intervalo de confian¸ca de 95% para µs , a verdadeira press˜ao sangu´ınea sist´olica m´edia. Resolu¸c˜ ao: s s ¯ + t(α/2, n−1) · √ IC1−α (µ) = x ¯ − t(α/2, n−1) · √ , x n n 78

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

11,8 11,8 IC95% (µ) = 130 − 2,262 · √ , 130 + 2,262 · √ 10 10 IC95% (µ) = [121,56, 138,44] H

I

H

b) Interprete esse intervalo de confian¸ca. Resolu¸c˜ ao: Pode-se afirmar com 95% de confian¸ca que a verdadeira m´edia da press˜ao sangu´ınea sist´olica para mulheres diab´eticas entre 30 e 34 anos ´e um valor entre 121,56 e 138,44 mmg Hg. H

I

H

c) A press˜ ao sangu´ınea diast´ olica m´edia para a amostra de tamanho 10 ´e x ¯ = 84 mmg Hg apresentando desvio padr˜ ao s = 9,1 mmg Hg. Encontre um intervalo de confian¸ca de 90% para µd , a verdadeira press˜ ao sangu´ınea diast´ olica m´edia da popula¸c˜ ao. Resolu¸c˜ ao: s s √ √ ,x ¯ + t(α/2, n−1) · IC1−α (µ) = x ¯ − t(α/2, n−1) · n n 9,1 9,1 IC90% (µ) = 84 − 1,833 · √ , 84 + 1,833 · √ 10 10 IC90% (µ) = [78,73, 89,27] H

I

H

d) Calcule um intervalo de confian¸ca com 99% para µd . Resolu¸c˜ ao: s s IC1−α (µ) = x ¯ − t(α/2, n−1) · √ , x ¯ + t(α/2, n−1) · √ n n 9,1 9,1 IC99% (µ) = 84 − 3,250 · √ , 84 + 3,250 · √ 10 10 IC99% (µ) = [74,65, 93,35] H

I

H

e) Como o intervalo de confian¸ca de 99% se compara ao intervalo de 90%? Resolu¸c˜ ao: Quanto maior o n´ıvel de confian¸ca com que o intervalo inclui a verdadeira m´edia populacional, maior ´e o valor do t(α/2, n−1) , maior ´e a margem de erro e mais amplo ´e o intervalo de confian¸ca. H 8.4.3

I

H

Intervalo de confian¸ ca para uma propor¸ c˜ ao r p(1 − p) Anteriormente foi visto que µpˆ = p e σpˆ = . Considere n P (−zα/2 < Z < zα/2 ) = 1 − α

onde: Z=r

Pˆ − p

. p(1 − p) n Substituindo Z e realizando algumas opera¸c˜oes alg´ebricas, obt´em-se: ! r r p(1 − p) p(1 − p) P Pˆ − zα/2 · < p < Pˆ + zα/2 · =1−α n n UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

79


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

pˆ =

Como o parˆ ametro p ´e desconhecido, considerando n grande, substitui-se o p sob o radical por y , podendo escrever: n ! r r pˆ(1 − pˆ) pˆ(1 − pˆ) ˆ ˆ ≈1−α P P − zα/2 · < p < P + zα/2 · n n

Assim, para uma amostra aleat´ oria particular de tamanho n, a propor¸c˜ao amostral pˆ ´e calculada e o seguinte intervalo de confian¸ca aproximado para p ´e obtido: # " r r pˆ(1 − pˆ) pˆ(1 − pˆ) IC1−α (p) = pˆ − z α2 · ; pˆ + z α2 · n n Em que: y • pˆ = : ´e a propor¸c˜ ao amostrada sendo y o n´ umero de sucessos observados numa amostra de n tamanho n; Exemplo: Deseja-se avaliar a aceita¸c˜ao de um novo produto no mercado. Efetuou-se uma amostragem com n = 664 pessoas e 200 pessoas afirmaram que passariam a usar regularmente o produto. Construa um intervalo de 99% de confian¸ca para p: a propor¸c˜ao de futuros consumidores desse produto. Interprete o resultado. Resolu¸c˜ ao: Pelos dados informados, tem-se: 200 y = 0,3012; zα/2 = z0,005 = 2,57 pˆ = = n 664 " # r r pˆ(1 − pˆ) pˆ(1 − pˆ) IC1−α (p) = pˆ − zα/2 · ; pˆ + zα/2 · n n "

r

IC99% (p) = 0,3012 − 2,57 ·

0,3012(1 − 0,3012) ; 0,3012 + 2,57 · 664

r

0,3012(1 − 0,3012) 664

#

IC99% (p) = [0,2554; 0,3470] Pode-se afirmar com 99% de confian¸ca que a verdadeira propor¸c˜ao de consumidores desse produto ´e um valor entre 0,2554 e 0,3470 (ou seja, entre 25,54% e 34,70%). H 8.4.4

I

H

Determina¸ c˜ ao do tamanho amostral

Em muitos casos antes de se fazer uma pesquisa n˜ao se tem ideia de qual ´e o tamanho da amostra necess´ ario para estimar uma m´edia, uma propor¸c˜ao etc que lhe assegurar´a trabalhar com uma certa margem de erro de estima¸c˜ ao. Para calcular o tamanho amostral15 define-se qual ´e o erro de estima¸c˜ao E e o n´ıvel de confian¸ca (1−α) que se quer trabalhar. O n´ıvel de confian¸ca ´e a probabilidade de que o valor estimado do parˆametro esteja correto. O erro de estima¸c˜ ao corresponde `a diferen¸ca entre a m´edia amostral e a verdadeira m´edia da popula¸c˜ ao (ou entre a propor¸c˜ ao amostral e propor¸c˜ao verdadeira). Os intervalos de confian¸ca estudados s˜ ao centrados em suas respectivas estimativas, sendo os limites inferior e superior definidos por diferen¸ca e soma entre a estimativa e o erro de estima¸c˜ao. A esquematiza¸c˜ao dos intervalos de confian¸ca est´ a apresentada na Figura 37.

FIGURA 37 Esquematiza¸c˜ao dos intervalos de confian¸ca para µ e p 15

80

H´ a v´ arias maneiras para calcular o tamanho de uma amostra.

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

De acordo com a Figura 37 pode-se verificar que os respectivos erros de estima¸c˜ao s˜ao: σ • E = zα/2 · √ - para m´edia quando a variˆancia populacional ´e conhecida; n s • E = t( α , n−1) √ - para m´edia quando a variˆancia populacional ´e desconhecida; 2 n r • E = zα/2 ·

pˆ(1 − pˆ) - para propor¸c˜ ao. n

A partir de opera¸c˜ oes matem´ aticas simples obt´em-se uma f´ormula para calcular n para cada situa¸c˜ ao: 2 zα/2 · σ2 - quando o objetivo ´e determinar o tamanho da amostra para calcular o intervalo de • n= E2 confian¸ca para m´edia quando a variˆ ancia populacional ´e conhecida;

t2(α/2; n0 −1) · s20 - quando o objetivo ´e determinar o tamanho da amostra para calcular o intervalo • n= E2 de confian¸ca para m´edia quando a variˆancia populacional ´e desconhecida; 2 zα/2 · pˆ(1 − pˆ) • n= - quando o objetivo ´e determinar o tamanho da amostra para calcular o intervalo E2 de confian¸ca para propor¸c˜ ao. Neste caso se tem a ideia de pˆ obtida por meio de uma amostra piloto ou observada em uma pesquisa similar. Quando n˜ao se tem conhecimento de pˆ adota-se pˆ = 0,5 que fornece n m´ aximo, pois pˆ(1 − pˆ) ≤ 0,25.

Em que: E: erro desejado definido pelo pesquisador; zα/2 : valor tabelado da normal; σ 2 : variˆancia populacional; s20 : variˆ ancia da amostra piloto; n0 − 1: graus de liberdade da amostra piloto e pˆ: propor¸c˜ao amostral. Pode-se ver que E ´e inversamente proporcional a n. Logo, quanto maior o tamanho da amostra ´ importante menor ser´ a o valor de E (largura menor) e, portanto, maior ser´a a precis˜ao na estima¸c˜ao. E destacar que precis˜ ao ´e diferente de confian¸ca. Exemplo 1: De uma pesquisa passada sabe-se que o desvio padr˜ao da altura de crian¸cas da 5a s´erie (6o ano) ´e de 5 cm. Que tamanho deve ter uma amostra para que o intervalo 150 ± 0,98 cm tenha 95% de confian¸ca? Resolu¸c˜ ao: Tem-se: E = 0,98 e zα/2 = z0,025 = 1,96, assim: 2 zα/2 · σ2 1,962 · 52 = = 100 crian¸cas. n= 2 E 0,982 H I H Exemplo 2: Em um estudo para a determina¸c˜ao do perfil dos veteranos de um col´egio a caracter´ıstica de maior interesse tem s0 = 0,3, obtida em uma amostra piloto de tamanho n0 = 20. Qual deve ser o tamanho da amostra para que se tenha 95% de confian¸ca de que o erro E = x ¯ − µ da estimativa de µ correspondente a essa caracter´ıstica n˜ ao supere 0,05? Resolu¸c˜ ao: Tem-se: n = 20; t(α/2, n−1) = t(0,025; 19) = 2,093; s = 0,3, assim: t2( α ;ν) · s20 2,0932 · 0,32 n= 2 2 = = 157,7 ⇒ 158 estudantes. E 0,052 H I H Exemplo 3: Numa pesquisa epidemiol´ogica deseja-se estimar, com 90% de confian¸ca, o parˆametro populacional: p = propor¸c˜ ao de pessoas infectadas, com erro amostral m´aximo de 1%. Qual deve ser o tamanho de uma amostra aleat´ oria simples supondo que, na popula¸c˜ao em estudo, n˜ao existam mais que 20% de indiv´ıduos infectados? Resolu¸c˜ ao: y Tem-se pˆ = = 20% = 0,20; zα/2 = z0,05 = 1,64. n 2 zα/2 · pˆ(1 − pˆ) 1,642 · 0,2(1 − 0,2) n= = = 4303,6 ⇒ 4304 pessoas. 2 E 0,012 H I H UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

81


˜ 8 TEORIA DA ESTIMAC ¸ AO

Estat´ıstica B´ asica

Exemplo 4: Com o objetivo de avaliar a preferˆencia do eleitor na v´espera de uma elei¸c˜ao para a prefeitura de um munic´ıpio, planeja-se um levantamento por amostragem aleat´oria simples. Considere que seja admiss´ıvel um erro amostral de at´e 2%, com 95% de confian¸ca, para as estimativas dos percentuais dos v´ arios candidatos. Quantos eleitores devem ser consultados? Resolu¸c˜ ao: Tem-se: pˆ =?, portanto pˆ = 0,5; zα/2 = z0,025 = 1,96 2 zα/2 · pˆ(1 − pˆ) 1,962 · 0,5(1 − 0,5) = = 2401 eleitores. n= 2 E 0,022 H I H 8.4.5

Exerc´ıcios

1. Uma amostra aleat´ oria de 8 barras de cereais da marca PAF apresentou os seguintes conte´ udos de gordura saturada, em gramas: 0,6

0,7

0,7

0,3

0,4

0,5

0,4

0,2

Sabe-se que essa vari´ avel ´e normalmente distribu´ıda com desvio padr˜ao σ = 0,15 gramas. a) Construa e interprete os ICs a 95% e a 99% para o teor m´edio verdadeiro de gordura saturada. b) Quais os comprimentos dos dois intervalos? Qual ´e maior? Isso era esperado? c) Suponha que no item (a) o desvio padr˜ao n˜ao ´e conhecido. Como vocˆe construiria o IC a 95% de confian¸ca para µ? Qual ´e este intervalo? 2. Os resultados abaixo referem-se ` a tens˜ ao de ruptura de uma amostra de n = 10 implantes mam´arios fabricados com gel de silicone. Tens˜ ao m´edia amostral de ruptura = 70,58 MPa Desvio padr˜ ao amostral = 5,59 MPa a) Obtenha um intervalo de confian¸ca a 99% para m´edia populacional da tens˜ao de ruptura desses implantes. b) Obtenha o IC para a m´edia supondo que o valor da m´edia amostral foi obtido com base em 20 implantes e o interprete. c) O que ocorre com o comprimento do IC quando o tamanho amostral aumenta, mantendo-se o n´ıvel de confian¸ca constante? d) Qual foi o erro de estima¸c˜ ao do IC obtido na letra (b)? 3. Um fornecedor da FIAT deseja obter informa¸c˜oes sobre o tempo durante o qual os propriet´arios de autom´ oveis desejam conserv´ a-los. Uma amostra de 22 propriet´arios de carros acusou x ¯ = 7,01 anos e s = 3,74 anos. Determine um intervalo de 95% de confian¸ca para a m´edia populacional e interprete-o. 4. Uma m´ aquina autom´ atica de refrescos ´e regulada de modo que a quantidade suprida de cada vez tenha distribui¸c˜ ao aproximadamente normal com desvio padr˜ao de 1,3 dL. Determinar um intervalo de 90% de confian¸ca para a quantidade m´edia de todos os refrescos servidos, sabendo que uma amostra de 30 copos de refresco acusou conte´ udo m´edio de 21,0 dL. 5. Um pesquisador est´ a estudando a resistˆencia de um determinado material sob determinadas condi¸c˜oes. Ele sabe que essa vari´ avel ´e normalmente distribu´ıda com desvio padr˜ao de duas unidades. Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine: (a) o intervalo de confian¸ca para a resistˆencia m´edia com um coeficiente de confian¸ca de 90% e 95%; (b) qual o tamanho da amostra necess´ ario para que o erro cometido, ao estimarmos a resistˆencia m´edia, n˜ ao seja superior a 0,01 unidade com confian¸ca 90%? 6. Um pesquisador est´ a estudando a resistˆencia de um determinado material sob determinadas condi¸c˜oes. Ele sabe que essa vari´ avel ´e normalmente distribu´ıda. Utilizando os valores 4,9; 7,0; 8,1; 4,5; 5,6; 6,8; 7,0; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o intervalo de confian¸ca para a resistˆencia m´edia com um coeficiente de confian¸ca de 90%. Qual dever´a ser o tamanho da amostra com 1 − α = 95% para que se tenha um erro menor do 0,5 unidade? 7. Um centro de pesquisas de opini˜ ao realizou uma pesquisa para avaliar a inten¸c˜ao de votos dos eleitores de uma determinada cidade. Foram entrevistados 380 eleitores, selecionados aleatoriamente e constatouse que 180 pretendem votar num determinado candidato. a) Determine um intervalo de confian¸ca de 90% para p: propor¸c˜ao de eleitores votantes no determinado candidato e interprete o resultado. b) Determine um intervalo de confian¸ca de 95% para p: propor¸c˜ao de eleitores votantes no determinado candidato e interprete o resultado. c) Qual intervalo ´e maior? Por quˆe? 82

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

8. Uma rep´ orter da revista Byte deseja fazer uma pesquisa para estimar a verdadeira propor¸c˜ao de todos os universit´ arios que tˆem computador pessoal, e quer ter 95% de confian¸ca de que seus resultados tenham uma margem de erro de 4%. Quantos universit´arios devem ser pesquisados quando: a) H´ a uma estimativa de p, obtida em estudo anterior, que revele uma porcentagem de 27%. b) N˜ ao h´ a informa¸c˜ oes anteriores sobre o valor de p. 9 9.1

˜ TEORIA DA DECISAO

Introdu¸ c˜ ao

Sobre a teoria de estima¸c˜ ao o assunto abordado fora o de encontrar uma estimativa para um parˆ ametro em estudo. Tal estimativa permitia fazer uma afirma¸c˜ao sobre o parˆametro desconhecido considerando um determinado n´ıvel de confian¸ca. Entretanto, na maioria das situa¸c˜oes o pesquisador n˜ao tem por objetivo estimar um parˆametro, mas decidir entre duas alega¸c˜ oes contradit´ orias sobre o parˆametro. A estas duas afirma¸c˜oes contradit´orias d´ a-se o nome de hip´ otese nula (H0 ) e hip´ otese alternativa (H1 ). O objetivo de um teste de hip´ oteses ´e basicamente a escolha entre estas duas afirma¸c˜oes, que s˜ ao concorrentes, mutuamente exclusivas e que podem considerar um ou mais parˆametros da popula¸c˜ ao ou, ainda, sobre a forma de uma distribui¸c˜ ao de probabilidade. O teste de hip´oteses nada mais ´e que um m´etodo para tomada de decis˜ ao [????]. A hip´ otese nula (H0 ) ´e a alega¸c˜ ao inicialmente assumida como verdadeira. Sempre ser´a definida como uma express˜ ao de igualdade. Considere, por exemplo, θ como um parˆametro de interesse, a hip´otese nula ter´ a a forma H0 : θ = θ0 , em que θ0 ´e um valor especificado do parˆametro. O parˆ ametro ´e uma caracter´ıstica da popula¸c˜ao, assim, θ poderia ser: • µ: m´edia populacional; • p: propor¸c˜ ao populacional; • σ 2 : variˆ ancia populacional, entre outros. Por outro lado, a hip´ otese alternativa (H1 ) ´e a afirma¸c˜ao contradit´oria de H0 . Estabelecer H0 e H1 depende exclusivamente da natureza do problema em estudo. Por conven¸c˜ao, os s´ımbolos =, ≥ e ≤ est˜ ao associados a H0 e os s´ımbolos 6=, < e >, est˜ao associados a H1 . Ao se realizar um teste de hip´ oteses, a hip´otese nula ser´a rejeitada em favor da hip´otese alternativa somente se a evidˆencia da amostra sugerir que H0 seja falsa atrav´es do valor da estat´ıstica de teste que assumir´ a um valor na regi˜ ao cr´ıtica. Caso contr´ario, ou seja, se a amostra n˜ao contradisser fortemente H0 , continua-se a acreditar na verdade da hip´otese nula; neste caso o valor da estat´ıstica de teste n˜ ao assumir´ a um valor na regi˜ ao cr´ıtica. Pode-se achar que sendo a hip´ otese alternativa rejeitada, aceita-se a hip´otese nula. N˜ao, n˜ao ´e assim que funciona. Em um teste de hip´ oteses a l´ogica ´e estabelecer o nulo como condi¸c˜ao que precisa ser invalidada. Portanto, a conclus˜ ao ` a qual se chega quando a estat´ıstica de teste n˜ao est´a na regi˜ ao cr´ıtica ´e que o nulo n˜ ao foi invalidado. Assim, pela linguagem formal do teste de hip´oteses, a conclus˜ao ´e: “rejeita-se a hip´ otese nula” ou “ n˜ ao se rejeita a hip´otese nula”. Alternativamente, pode-se declarar que o “teste foi estatisticamente significativo” ou “n˜ao foi estatisticamente significativo”. A regi˜ ao cr´ıtica ´e uma regi˜ ao definida na cauda da curva da distribui¸c˜ao de probabilidade inerente ao teste de hip´ otese, a sua posi¸ca˜o e o tamanho da regi˜ao n˜ao s˜ao arbitr´arios. O “tamanho” dessa regi˜ ao ´e simbolizado por α (lˆe-se: alfa), geralmente s˜ao usados 0,05 ou 0,01, mas podendo ser definido outros valores, se desejado. 9.2

Erros envolvidos num teste de hip´ otese

Como a tomada de decis˜ ao sobre a n˜ao rejei¸c˜ao ou rejei¸c˜ao de uma hip´otese est´a lan¸cada apenas na informa¸c˜ ao dos dados amostrais, h´ a sempre a possibilidade de se tomar a decis˜ao errada. Ent˜ao, ao realizar um teste de hip´ otese, dois tipos de erros podem ser cometidos: • Erro tipo I: rejeitar H0 quando ela ´e verdadeira; • Erro tipo II: n˜ ao rejeitar H0 quando ela ´e falsa. O quadro abaixo resume a natureza dos erros envolvidos no processo de decis˜ao atrav´es do teste de hip´ oteses. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

83


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

Realidade Decis˜ ao Rejei¸c˜ ao de H0 N˜ ao rejei¸c˜ ao de H0

H0 verdadeira Erro tipo I Decis˜ao correta

H0 Falsa Decis˜ao correta Erro tipo II

A probabilidade de se cometer o erro tipo I ´e denotada por α e ´e chamada de n´ıvel de significˆancia do teste. A probabilidade de ocorrˆencia do erro tipo II ´e denotada por β (lˆe-se: beta). Para que um teste de hip´ oteses seja considerado bom deve-se ter uma pequena probabilidade de rejeitar H0 se esta for verdadeira, mas tamb´em, uma grande probabilidade de rejeit´a-la se ela for a falsa. Ser˜ ao abordados testes em que apenas o erro tipo I ´e controlado (testes de significˆancia), isto devido a que o controle do erro tipo II precisa de t´ecnicas mais avan¸cadas. Na literatura os valores para α s˜ ao fixados em 5% e 1% s˜ ao “pequenos o bastante” para a ocorrˆencia do erro tipo I. Mas, por outro lado, estes valores n˜ ao s˜ ao suficientemente pequenos para a ocorrˆencia do erro tipo II. Teoricamente o erro tipo II pode ser minimizado por adotar uma s´erie de a¸c˜oes como: a escolha do teste adequado e a determina¸c˜ ao do tamanho de uma amostra ideal para que o teste tenha o maior poder poss´ıvel desde que n˜ ao aumente o custo da pesquisa. Exemplo (Extra´ıdo de: [??]): Uma empresa especializada na fabrica¸c˜ao de paraquedas afirma que o ´ındice de falha de seu principal paraquedas n˜ao ´e mais do que 1% (ou seja, menor ou igual a 1%). Vocˆe realiza um teste de hip´ otese para determinar se a afirma¸c˜ao da empresa ´e falsa. Quando ocorrer´ a um erro tipo I ou tipo II? Qual ´e o mais s´erio? Solu¸c˜ ao: H0 : p ≤ 1% As hip´ oteses em teste s˜ ao: . H1 : p > 1% Um erro tipo I ocorrer´ a se a real propor¸c˜ao de falha de seu principal paraquedas for menor ou igual a 1%, mas vocˆe decide rejeitar H0 . Um erro tipo II ocorrer´a se a real propor¸c˜ao de falha for superior a 1%, mas vocˆe n˜ ao rejeita H0 . Com um erro tipo I vocˆe poder´a causar um pˆanico nos saltadores de paraquedas, mas na verdade a real propor¸c˜ao est´a dentro do limite especificado. Por outro lado, um erro tipo II vocˆe permitir´ a que os saltadores de paraquedas continuem a saltar. Um erro tipo II pode resultar em mais saltadores feridos ou at´e mortos. 9.3

Mecˆ anica operacional dos testes de hip´ oteses Para a execu¸c˜ ao de um teste de hip´oteses seguir os passos abaixo:

1. Formular as hip´ oteses H0 e H1 segundo a natureza do problema em estudo; 2. Especificar o n´ıvel de significˆ ancia; 3. Estabelecer a estat´ıstica (z, t, χ2 ou F ) e calcular o seu valor que definir´a a decis˜ao considerando H0 verdadeira; 4. Fazer o desenho da distribui¸c˜ ao de probabilidade do teste, estabelecer a regi˜ao cr´ıtica e concluir, observando se o valor da estat´ıstica pertence ou n˜ao `a regi˜ao cr´ıtica. 9.4

Teste de hip´ oteses para uma m´ edia de uma popula¸ c˜ ao normal quando a variˆ ancia populacional for desconhecida

Neste teste de hip´ oteses ser´ a considerado o caso em que µ seja igual a um determinado valor µ0 (m´edia hipot´etica da popula¸c˜ ao), sendo a variˆancia populacional σ 2 desconhecida. Conforme descrito na se¸c˜ ao 9.3 para a execu¸c˜ao de um teste de hip´oteses ´e necess´ario seguir 4 passos. O primeiro ´e a formula¸ ao das hip´oteses as quais podem ter trˆes formas, , conforme o problema c˜ H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0 em estudo: , e . H1 : µ 6= µ0 H1 : µ > µ 0 H1 : µ < µ 0 O segundo passo ´e a especifica¸c˜ ao de α, geralmente apresentado nos enunciados. x ¯ − µ0 usando os valores obtidos da s √ n amostra e µ0 , considerando tc ∼ t com ν = n − 1 graus de liberdade (gl) sob H0 . O terceiro passo ´e a obten¸c˜ ao do valor da estat´ıstica tc =

84

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

O quarto e u ´ltimo passo ´e a conclus˜ao de acordo com o(s) valor(es) da regi˜ao(˜oes) cr´ıtica(s). Se o valor da estat´ıstica pertencer ` a regi˜ ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ ario, n˜ ao se rejeita H0 . Conforme a hip´ otese formulada obtˆem-se as seguintes regi˜oes cr´ıticas:

FIGURA 38 Regi˜ oes cr´ıticas conforme H1 : µ 6= µ0 ; H1 : µ > µ0 e H1 : µ < µ0 Sendo que o ttab quando H1 : µ 6= µ0 deve ser consultado na tabela da distribui¸c˜ao t considerando −ttab = −t( α2 ; n−1) e ttab = t( α2 ; n−1) . Enquanto que para H1 : µ > µ0 e H1 : µ < µ0 , ttab ser´a t(α; n−1) e −t(α; n−1) , respectivamente. Exemplo: Doze frascos de medicamento de certa marca acusam os seguintes conte´ udos m´edios em decilitros: 10,2 9,7 10,1 10,3 10,1 9,8 9,9 10,4 10,3 9,8 10,4 10,2 O fabricante afirma que o cont´eudo m´edio dos frascos ´e de 10 dL. Admitindo normalidade na distribui¸c˜ ao dos conte´ udos, teste a hip´ otese do fabricante ao n´ıvel de 5% de significˆancia. Solu¸c˜ ao: Dados: µ0 = 10 12 X

xi

10,2 + . . . + 10,2 = 10,1 12 ! 2 12 X  12 xi  X  1   x2i − i=1 s2 =   = 0,06   12 − 1 i=1 12  

x ¯=

1

12

= 

s = 0,2449 n = 12 α α = 0,05 =⇒ = 0,025 2 −ttab = −t( α2 ; n−1) = −t0,025; 11) = −2,201 e ttab = t(0,025; 11) = 2,201

1 ao das hip´ oteses: - Formula¸c˜ H0 : µ = 10 H1 : µ 6= 10 2 - Especificar α: α = 0,05 3 - Calcular o valor da estat´ıstica: 10,1 − 10 x ¯ − µ0 tc = = = 1,4145 s 0,2449 √ √ n 12 4 - Conclus˜ ao: Conforme o desenho, nota-se que o valor da estat´ıstica tc = 1,4145 pertence ` a regi˜ ao de n˜ao rejei¸c˜ ao de H0 . Portanto, conclui-se que n˜ ao se rejeita H0 ao n´ıvel de 5% de significˆ ancia ou seja, n˜ ao h´a motivos para duvidar sobre a afirma¸c˜ ao do fabricante. 9.4.1

Exerc´ıcios

1. Um fabricante de termˆ ometro garante que a vida u ´til m´edia de certo tipo de termˆometro ´e de no m´ınimo 10 anos. a) Determine a hip´ otese nula e a alternativa. b) Determine quando um erro tipo I ou II ocorre para um teste de hip´otese da afirma¸c˜ao. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

85


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

c) Determine se o teste de hip´ otese ´e unicaudal `a esquerda, `a direita ou bicaudal. Explique. d) Como vocˆe deve interpretar uma decis˜ ao que rejeita a hip´otese nula? e) Como vocˆe deve interpretar uma decis˜ ao que n˜ao rejeita a hip´otese nula? 2. Um fabricante de “sucos de caixinha” afirma que a quantidade m´edia de s´odio em seus produtos ´e menor do que 9,0 mg. a) Determine a hip´ otese nula e a alternativa. b) Determine quando um erro tipo I ou II ocorre para um teste de hip´otese da afirma¸c˜ao. c) Determine se o teste de hip´ otese ´e unicaudal `a esquerda, `a direita ou bicaudal. Explique. d) Como vocˆe deve interpretar uma decis˜ ao que rejeita a hip´otese nula? e) Como vocˆe deve interpretar uma decis˜ ao que n˜ao rejeita a hip´otese nula? 3. Uma f´ abrica anuncia que o ´ındice de nicotina dos cigarros da marca Charuto apresenta-se abaixo de 26 mg por cigarro. Um laborat´ orio realiza 10 an´alises do ´ındice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28, 24. Sabe-se que o ´ındice de nicotina dos cigarros desta marca se distribui normalmente. Pode-se aceitar a afirma¸c˜ ao do fabricante, ao n´ıvel de 5%? 4. Um fabricante de lajotas de cerˆ amica introduz um novo material em sua fabrica¸c˜ao e acredita que aumentar´ a a resistˆencia m´edia, que ´e de 206 kg. A resitˆencia das lajotas tem distribui¸c˜ao normal. Retirase uma amostra de 30 lajotas, obtendo-se x ¯ = 210 kg e s = 12 kg. Ao n´ıvel de 10%, pode o fabricante aceitar que a resistˆencia m´edia de suas lajotas tenha aumentado? 5. Um certo tipo de rato apresenta, nos trˆes primeiros meses de vida, um ganho m´edio de peso de 58 g. Uma amostra de 10 ratos foi alimentada desde o nascimento at´e a idade de 3 meses com uma ra¸c˜ ao especial, e o ganho de peso de cada rato foi: 55, 58, 60, 62, 65, 67, 54, 64, 62 e 68. H´a raz˜oes para crer, ao n´ıvel de 5%, que a ra¸c˜ ao especial aumenta o peso nos 3 primeiros meses de vida? 6. Suponha que um estudo em determinada regi˜ao mostra que a ingest˜ao di´aria m´edia de calorias em adultos ´e de 2.400 kcal. Considere que um grupo de 25 adultos desta popula¸c˜ao apresentou um consumo m´edio de 3.000 kcal, com um desvio padr˜ ao de 1.250 kcal. Para testar se o consumo cal´orico deste grupo ´e diferente do padr˜ ao de consumo da popula¸c˜ao, use α = 5% e conclua. 7. Considere o conjunto de dados formado pelas notas de 60 alunos que estudaram estat´ıstica b´asica: 23 45 77 87 98

12 54 60 77 67

90 87 88 86 65

90 99 97 76 77

32 45 64 75 77

70 60 66 71 72

29 34 33 45 90

88 71 56 44 78

89 87 62 66 56

54 88 94 87 54

68 88 81 78 45

28 73 77 86 79

Sorteie 10 alunos, sem reposi¸c˜ ao, desse conjunto. Use a t´abua de n´ umeros aleat´orios abaixo e inicie seu sorteio considerando os dois primeiros algarismos de cada conjunto de cinco algarismos (come¸cando, assim, por 70, 88, 97, 20, 06, ...). Lembre-se de enumerar a popula¸c˜ao. 70891 26943 01587 19827 63345 11601 03748 11166

88821 40213 05547 45549 61088 04533 67555 20498

97452 23032 41280 06723 01293 53473 03404 99753

20353 58781 00572 64692 93914 74240 91598 86323

06361 27620 18550 55592 32518 32640 66248 46310

70990 97239 32127 31574 61105 16851 13918 05831

18735 15102 48564 11217 56574 23814 92221 65045

56086 86483 58748 32794 50105 38439 19450 77398

a) Quais alunos foram sorteados? b) Apresente as notas correspondentes aos alunos sorteados. c) Calcule a m´edia das notas amostradas. d) Calcule a variˆ ancia das notas amostradas. e) Calcule um intervalo de confian¸ca de 95% para a m´edia populacional e interprete o resultado. f) O professor da disciplina afirmou que a nota m´edia dos seus alunos ´e superior a 68,25. Teste com base na m´edia encontrada da amostra e ao n´ıvel de 2,5% de significˆancia a afirma¸c˜ao do professor e conclua. 9.5

Teste de hip´ oteses para propor¸ c˜ oes

Em alguns casos o interesse ´e testar uma propor¸c˜ao populacional p igual a uma propor¸c˜ao p0 . Os passos a serem seguidos para a realiza¸c˜ao deste teste de hip´oteses s˜ao: 86

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

tipo:

Primeiro passo: Formular as hip´oteses segundo a natureza do problema. Elas podem ser do H0 : p = p0 H0 : p = p0 H0 : p = p0 , e H1 : p 6= p0 H1 : p > p0 H1 : p < p0

Segundo passo: Especificar α que geralmente ´e informado no enunciado. pˆ − p0 , que sob H0 , zc ∼ N (0, 1). Terceiro passo: Calcular o valor da estat´ıstica zc = r p0 · (1 − p0 ) n Quarto passo: Concluir de acordo com o(s) valor(es) da regi˜ao(˜oes) cr´ıtica(s). Se o valor da estat´ıstica pertencer ` a regi˜ ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ario, n˜ ao se rejeita H0 . Conforme a hip´ otese formulada obtˆem-se as seguintes regi˜oes cr´ıticas:

FIGURA 39 Regi˜ oes cr´ıticas conforme H1 : p 6= p0 ; H1 : p > p0 e H1 : p < p0 Sendo que ztab quando H1 : p 6= p0 dever ser consultado na tabela da distribui¸c˜ao normal padronizada Z considerando −ztab = −zα/2 e ztab = zα/2 . Para as outras hip´ oteses, H1 : p > p0 e H1 : p < p0 , os valores de ztab s˜ao respectivamente, zα e −zα . Exemplo: Um comprador, ao receber de um fornecedor um grande lote de pe¸cas, decidiu inspecionar 200 delas. Decidiu, tamb´em, que o lote ser´a rejeitado se ficar convencido, ao n´ıvel de 5% de significˆ ancia, de que a propor¸c˜ ao de pe¸cas defeituosas no lote for superior a 4%. Qual ser´a sua decis˜ ao (rejeitar ou n˜ ao o lote) se na amostra foram encontradas onze pe¸cas defeituosas? Solu¸c˜ ao: Dados: n = 200 α = 0,05 ztab = zα = z0,05 = 1,65

p0 = 4% = 0,04 11 y = 0,055 pˆ = = n 200 1 ao das hip´ oteses: - Formula¸c˜ H0 : p = 0,04 H1 : p > 0,04 2 - Especificar α: α = 0,05 3 - Calcular o valor da estat´ıstica: pˆ − p0 0,055 − 0,04 =r = 1,0825 zc = r p0 · (1 − p0 ) 0,04 · (1 − 0,04) n 200 4 - Conclus˜ ao: Conforme o desenho, nota-se que o valor da estat´ıstica zc = 1,0825 pertence ` a regi˜ ao de n˜ao rejei¸c˜ ao de H0 . Portanto, conclui-se que n˜ ao se rejeita H0 ao n´ıvel de 5% de significˆ ancia ou seja, n˜ ao h´a motivos para rejeitar o lote de pe¸cas. 9.5.1

Exerc´ıcios

1. Suponha que um alergista deseja testar a hip´otese de que pelo menos 30% das pessoas s˜ao al´ergicas a medicamentos ` a base de sulfa. Explique como o alergista poderia cometer: a) um erro tipo I. b) um erro tipo II. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

87


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

2. A reitoria de uma universidade acredita que a propor¸c˜ao de alunos que ocasional ou frequentemente chegam atrasados ` as aulas ´e de 55%. a) Determine a hip´ otese nula e a alternativa. b) Determine quando um erro tipo I ou II ocorre para um teste de hip´otese da afirma¸c˜ao. c) Determine se o teste de hip´ otese ´e unicaudal `a esquerda, `a direita ou bicaudal. Explique. d) Como vocˆe deve interpretar uma decis˜ ao que rejeita a hip´otese nula? e) Como vocˆe deve interpretar uma decis˜ ao que n˜ao rejeita a hip´otese nula? 3. Sabe-se por experiˆencia que 5% da produ¸c˜ao de um determinado artigo ´e defeituosa. Um novo empregado ´e contratado. Ele produz 600 pe¸cas do artigo com 82 defeituosas. Ao n´ıvel de 15%, verificar se o novo empregado produz pe¸cas com maior ´ındice de defeitos que o existente. 4. Em uma experiˆencia sobre percep¸c˜ ao extrassensorial (PES), um indiv´ıduo A, em uma sala isolada, ´e solicitado a declarar a cor vermelha ou preta (em n´ umeros iguais) de cartas tiradas ao acaso de um baralho de 50 cartas, por outro indiv´ıduo B, posicionado em outra sala. Se A identifica corretamente 32 cartas, esse resultado ´e significativo ao n´ıvel de 5% para indicar que A tem PES? 5. Um candidato a deputado estadual afirma que ter´a 60% dos votos dos eleitores de uma cidade. Um instituto de pesquisa colhe uma amostra de 300 eleitores dessa cidade, encontrando 160 que votar˜ao no candidato. Esse resultado mostra que a afirma¸c˜ao do candidato ´e verdadeira, ao n´ıvel de 5%? 6. Um fabricante de droga medicinal afirma que ela ´e 90% eficaz na cura de uma alergia, em determinado per´ıodo. Em uma amostra de 200 pacientes, a droga curou 150 pessoas. Testar ao n´ıvel de 1% se a pretens˜ ao do fabricante ´e leg´ıtima. 7. Um levantamento efetuado em um bairro de uma cidade mostrou que 25 indiv´ıduos adultos de um total de 80 eram tabagistas habituais. Considerando que a prevalˆencia de tabagismo na popula¸c˜ao adulta seja de 20%, teste a hip´ otese de que a prevalˆencia de tabagismo neste bairro seja diferente da prevalˆencia da popula¸c˜ ao em geral, a um n´ıvel de 5%. 9.6

Teste de hip´ oteses para compara¸ c˜ ao das variˆ ancias de duas popula¸ c˜ oes normais

Alguns testes de hip´ oteses exigem que seja verificado as variˆancias dos dois grupos a serem testados. Um destes ´e o teste de hip´ oteses para compara¸c˜ao de duas m´edias de duas popula¸c˜oes normais. O teste mais comumente usado pelos pesquisadores ´e o teste F m´aximo ou teste de Hartley. s˜ ao similares aos dos testes j´a apresentados. Entretanto, a hip´otese mais Os procedimentos 2 2 = σm H0 : σM 2 2 e a maior variˆancia populacional e σm ´e a menor variˆancia usual ´e 2 2 . Em que σM ´ H1 : σM > σm populacional. O segundo passo: ´e especificar o n´ıvel de significˆancia α, normalmente fornecido 2 no enunciado. s2m sM s2M ÷ 2 = , pois, sob H0 , Terceiro passo: Calcular o valor da estat´ıstica Fc = 2 σM σm s2m 2 2 tem-se σM = σm e Fc ∼ F(nM −1; nm −1)gl . Em que: sM , sm , nM e nm representam, respectivamente, a maior e a menor variˆ ancia amostral e o tamanho da amostra de onde veio a maior e menor variˆancia. Quarto passo: Concluir de acordo com o valor da regi˜ao cr´ıtica. Se o valor da estat´ıstica pertencer ` a regi˜ ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ario, n˜ao se rejeita H0 . Rejeitando H0 significa que h´ a heterocedasticidade (heterogeneidade de variˆancias). Conforme a hip´ otese formulada obt´em-se a seguinte regi˜ao cr´ıtica:

2 2 FIGURA 40 Regi˜ao cr´ıtica conforme H1 : σM > σm

Sendo que o Ftab = F(α; nM −1; nm −1) ´e obtido na tabela da distribui¸c˜ao F com graus de liberdade nM − 1 = ν1 e nm − 1 = ν2 representando os graus de liberdade do numerador e do denominador, respectivamente. Exemplo: Dadas duas amostras extra´ıdas de popula¸c˜oes normais independentes: n1 = 10; x ¯1 = 73; s1 = 5,9 88

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

n2 = 13; x ¯2 = 57; s2 = 5,0 Testar a homogeneidade de variˆ ancias no n´ıvel de 5% de significˆancia. Solu¸c˜ ao: 1 c˜ ao das hip´ oteses: - Formula¸ 2 2 H0 : σ M = σm 2 2 H1 : σ M > σm 2 - Especificar α: α = 0,05 3 - Calcular o valor da estat´ıstica: s2 (5,9)2 s2 s2 2 2 = M = = 1,3924, pois sob H0 tem-se σM = σm . Fc = M ÷ m 2 2 2 σM σm sm (5,0)2 4 - Conclus˜ ao: Conforme o desenho, nota-se que o valor da estat´ıstica Fc = 1,3924 pertence ` a regi˜ ao de n˜ao rejei¸c˜ ao de H0 . O valor Ftab = F(α; nM −1; nm −1) = F(0,05; 10−1; 13−1) = F(0,05; 9; 12) = 2,80 ´e obtido na tabela F considerando α = 0,05 e o n´ umero obtido na interse¸c˜ ao dos graus de liberdade do numerador da fra¸c˜ ao e o n´ umero dos graus de liberdade do denominador, ou seja, 9 e 12 gl. Portanto, conclui-se que n˜ ao se rejeita H0 ao n´ıvel de 5% de significˆ ancia ou seja, as variˆancias podem ser consideradas homogˆeneas. 9.7

Teste de hip´ oteses para duas m´ edias de popula¸ c˜ oes normais com variˆ ancias populacionais desconhecidas

Este teste de hip´ otese tem por objetivo comparar duas m´edias de popula¸c˜oes normais, ou seja, o interesse deste teste ´e verificar µ1 − µ2 considerando x ¯1 − x ¯2 . Existem duas situa¸c˜oes que devem ser consideradas: as variˆ ancias populacionais s˜ao ou n˜ao s˜ao homogˆeneas. 9.7.1

Testes de hip´ oteses para duas m´ edias, sendo σ12 = σ22 = σ 2

Primeiro passo: ser´ a considerada apenas um tipo de situa¸c˜ao, em que µ1 − µ2 6= 0. O valor 0 ´e o valor a ser testado, poderia haver interesse em outros valores. H0 : µ1 − µ2 = 0 Neste caso as hip´ oteses s˜ ao: . H1 : µ1 − µ2 6= 0 O segundo passo: ´e especificar o n´ıvel de significˆancia α, normalmente fornecido no enunciado. x ¯1 − x ¯2 − 0 Terceiro passo: Calcular o valor da estat´ıstica tc = s , 1 1 s2p · + n1 n2 2 2 (n1 − 1) · s1 + (n2 − 1) · s2 , em que sob H0 , tc ∼ t com ν = n1 + n2 − 2 gl. sendo s2p = n1 + n2 − 2 Quarto passo: Concluir de acordo com o valor da regi˜ao cr´ıtica. Se o valor da estat´ıstica pertencer ` a regi˜ ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ario, n˜ao se rejeita H0 . Conforme a hip´ otese formulada obt´em-se a seguinte regi˜ao cr´ıtica:

FIGURA 41 Regi˜ao cr´ıtica conforme H1 : µ1 − µ2 6= 0 Onde os valores −ttab e ttab devem ser consultados na tabela da distribui¸c˜ao t, sendo considerados −ttab = −t(α/2; n1 +n2 −2) e ttab = t(α/2; n1 +n2 −2) . UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

89


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

Exemplo: Considere um experimento em que dois grupos de ratos (fˆemeas) foram alimentados com dietas apresentando alto e baixo conte´ udos de prote´ına. Os dados abaixo apresentam os dois grupos, dando o peso em gramas para cada rato entre o 28o e o 84o dia de vida. Alto 123 104 161 113

cont. prote´ına 134 146 119 124 107 83 129 97

Baixo cont. prote´ına 70 118 101 85 107 132 94

Teste ao n´ıvel de 5% de significˆ ancia se os dois grupos tratados apresentam m´edias iguais nos pesos, considerando que j´ a foi realizado o teste F m´ aximo e n˜ao foi significativo para heterogeneidade de variˆancias. Solu¸c˜ ao: Dados: Adotando o ´ındice 1 para os ratos que foram alimentados com alto conte´ udo de prote´ına e 2 para os ratos com baixo conte´ udo de prote´ına, tem-se: n1 = 12 x¯1 = 120 s21 = 457,4545 n2 = 7 x¯2 = 101 s22 = 425,3333 α = 0,05

ttab = t(α/2; n1 +n2 −2) = t(0,025; 12+7−2) −t(0,025; 17)=−2,110 t(0,025; 17)=2,110 (12 − 1) · 457,4545 + (7 − 1) · 425,3333 s2p = 12 + 7 − 2 s2p = 446,1176

1 - Formula¸c˜ ao das hip´ oteses: H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 6= 0 2 - Especificar α: α = 0,05 3 - Calcular o valor da estat´ıstica: x ¯1 − x ¯2 − 0 120 − 101 − 0 tc = s = 1,891 =s 1 1 1 1 2 sp · 446,1176 · + + n1 n2 12 7 4 - Conclus˜ ao: Conforme o desenho, nota-se que o valor da estat´ıstica tc = 1,891 pertence ` a regi˜ ao de n˜ao rejei¸c˜ ao de H0 . Conclui-se que n˜ ao se rejeita H0 ao n´ıvel de 5% de significˆ ancia ou seja, as m´edias n˜ao s˜ao estatisticamente diferentes. 9.7.2

Testes de hip´ oteses para duas m´ edias, sendo σ12 6= σ22

Como anteriormente, somente a situa¸c˜ao em que µ1 − µ2 6= 0 ser´a considerada. H0 : µ1 − µ2 = 0 O primeiro passo ´e a formula¸c˜ ao da hip´otese: . H1 : µ1 − µ2 6= 0 O segundo passo: ´e especificar o n´ıvel de significˆancia α, normalmente fornecido no enunciado. x ¯1 − x ¯2 − 0 Terceiro passo: Calcular o valor da estat´ıstica tc = s , em que sob H0 , tc ∼ t com s21 s22 + n1 n2 2 2 2 s1 s + 2 n1 n2 ν gl. Sendo ν = 2 2 2 . s21 s2 n1 n2 + n1 − 1 n2 − 1 Quarto passo: Concluir de acordo com o valor da regi˜ao cr´ıtica. Se o valor da estat´ıstica pertencer ` a regi˜ ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ario, n˜ao se rejeita H0 . 90

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ 9 TEORIA DA DECISAO

Estat´ıstica B´ asica

Conforme a hip´ otese formulada obt´em-se a seguinte regi˜ao cr´ıtica:

FIGURA 42 Regi˜ao cr´ıtica conforme H1 : µ1 − µ2 6= 0 Onde os valores −ttab e ttab devem ser consultados na tabela da distribui¸c˜ao t, sendo considerados −ttab = −t(α/2; ν) e ttab = t(α/2; ν) . Exemplo: Os dados abaixo se referem aos pesos, em gramas, de ratos machos da ra¸ca Wistar com 15 dias de idade, segundo a condi¸c˜ ao normal e submetidos `a extirpa¸c˜ao do timo (timectomiza¸c˜ao) aos 4 dias de idade. Verificar se nas duas situa¸c˜oes o ganho m´edio de peso destes animais ´e igual, usando α = 5% (h´ a heterocedasticidade). Condi¸c˜ ao normal Timectomizado

40,3 20,9

41,0 21,3

39,6 23,6

33,0 22,2

31,0 21,9

Solu¸c˜ ao: Dados: Adotando o ´ındice 1 para os ratos que est˜ ao na condi¸c˜ao normal e 2 para os ratos que foram timectomizados, tem-se: n1 = 5 x¯1 = 36,98 s21 = 21,412 n2 = 5 x¯2 = 21,98 s22 = 1,077 α = 0,05

2 s21 s2 + 2 n1 n2 ν = 2 2 2 2 s1 s2 n1 n2 + n1 − 1 n2 − 1

2 21,412 1,077 + 5 5 ν= 2 2 1,077 21,412 5 5 + 5−1 5−1 ν = 4,40 ⇒ 4 gl ttab = t(α/2; ν) = t(0,025; 4) −t(0,025; 4)=−2,776 t(0,025; 4)=2,776

1 - Formula¸c˜ ao das hip´ oteses: H0 : µ1 − µ2 = 0 H1 : µ1 − µ2 6= 0 2 - Especificar α: α = 0,05 3 - Calcular o valor da estat´ıstica: x ¯1 − x ¯2 − 0 36,98 − 21,98 − 0 tc = s = s = 7,073 21,412 1,077 s21 s22 + + 5 5 n1 n2 4 - Conclus˜ ao: Conforme o desenho, nota-se que o valor dos apresentando maior m´edia de peso o primeiro da estat´ıstica tc = 7,073 pertence ` a regi˜ ao de rejei- grupo. ¸c˜ ao de H0 . Conclui-se que rejeita-se H0 ao n´ıvel de 5% de significˆ ancia ou seja, as m´edias s˜ao estatisticamente diferentes. Assim, o peso m´edios dos ratos em condi¸c˜ ao normal difere dos timectomiza9.7.3

Exerc´ıcios

Mesmo afirmando que h´ a homocedasticidade ou heterocedasticidade (variˆancias homogˆeneas ou variˆancias heterogˆeneas) realize o teste F m´ aximo. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

91


Introdu¸c˜ ao ` a Bioestat´ıstica

10 TESTES QUI-QUADRADO

1. Em um teste de hip´ otese de que mulheres sorriem para outras mais do que os homens o fazem entre si, mulheres e homens foram filmados enquanto conversavam, anotando-se o n´ umero de sorrisos de cada sexo. Com os seguintes n´ umeros de sorrisos em cinco minutos de conversa, teste a hip´otese nula de que n˜ao h´ a diferen¸ca entre os sexos quanto ao n´ umero de sorrisos (α = 0,05). Ap´os realizar um teste para verificar as variˆ ancias (teste de homogeneidade) concluiu-se que as variˆancias dos grupos podem ser consideradas iguais. Homens Mulheres 8 15 11 19 13 13 4 11 2 18 2. Considerando que as variˆ ancias dos dois grupos testados n˜ao s˜ao iguais, no n´ıvel de 5% de significˆancia, teste a afirma¸c˜ ao de que a quantidade m´edia de alcatr˜ao em cigarros com filtro ´e a mesma que a quantidade m´edia de alcatr˜ ao em cigarros sem filtro. (Todas as medidas s˜ao em miligramas e os dados s˜ao da Federal Trade Commission.) Quantidade de alcatr˜ao (mg) Com filtro Sem filtro n1 = 21 n2 = 8 x ¯1 = 13,3 x ¯2 = 24,0 s1 = 3,7 s2 = 1,7 3. De duas popula¸c˜ oes X normais X1 e X ao os apresentados a seguir: 2 foram retiradas amostras e os dados s˜ X Popula¸c˜ ao 1: n1 = 6; xi = 36,3; x2i = 223,55 X X Popula¸c˜ ao 2: n2 = 9; xi = 76,9; x2i = 665,81 Testar ao n´ıvel de 2,0% de significˆ ancia que a m´edia da primeira popula¸c˜ao ´e igual `a segunda. Ap´ os realizar o teste de variˆ ancias elas podem ser consideradas iguais. 4. Para verificar a eficˆencia de um cartaz na estimula¸c˜ao `a compra de determinado produto, 7 pares de lojas foram formados, cada par tendo as mesmas caracter´ısticas quanto `a localiza¸c˜ao, ao tamanho e ao volume geral das vendas. Isso feito, o cartaz foi colocado numa das lojas do par, n˜ao o sendo em sua correspondente, tendo o processo sido repetido para os 7 pares. Abaixo aparecem as vendas semanais do produto durante a experimenta¸c˜ ao, expressas em m´edia de observa¸c˜ao conduzida por dois meses. Analise os dados e conclua, a 5%, sobre o potencial do cartaz na indu¸c˜ao `a compra do produto. Admita normalidade e heterocedasticidade (variˆ ancias diferentes) entre os grupos. Par 1 2 3 4 5 6 7 Com cartaz 16 24 18 14 26 17 29 Sem cartaz 13 18 14 16 19 12 18 5. As amostras aleat´ orias seguintes, s˜ ao medidas da capacidade de gerar calor (em milh˜oes de calorias por tonelada) de amostras de carv˜ ao de duas minas. Ao n´ıvel de 5% de significˆancia, teste se a diferen¸ca entre as m´edias das duas popula¸c˜ oes ´e significativa. Admite-se normalidade dos dados e heterogeneidade de variˆ ancias (heterocedasticidade, variˆ ancias diferentes). Mina 1 9.400 8.230 8.380 7.860 7.930 Mina 2 7.510 7.690 7.720 8.070 7.660 10

TESTES QUI-QUADRADO

Os trˆes testes que envolvem a distribui¸c˜ao Qui-quadrado que ser˜ao estudados neste material s˜ ao: • Teste de aderˆencia; • Teste de homogeneidade; • Teste de independˆencia. Em todos os testes Qui-quadrado o que muda ´e s´o a hip´otese envolvida no problema, basicamente, para os trˆes tipos de testes de hip´ oteses, a estat´ıstica ´e: 92

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Introdu¸c˜ ao ` a Bioestat´ıstica

10 TESTES QUI-QUADRADO

χ2c =

n X (Oi − Ei )2 i=1

Ei

Sendo, sob H0 , χ2c ∼ χν em que ν s˜ ao os graus de liberdade da distribui¸c˜ao de probabilidade Qui-quadrado. 10.1

Teste de Aderˆ encia

Testa a hip´ otese da amostra ser proveniente de uma distribui¸c˜ao de probabilidade definida em H0 . Ou seja, testa a hip´ otese de que uma distribui¸c˜ao de frequˆencias observadas se ajusta (ou adere) a uma determinada distribui¸c˜ ao de probabilidade definida em H0 . Como j´a estudado anteriormente o teste de hip´ oteses deve passar por quatro etapas. A primeira ´e a formula¸c˜ ao das hip´oteses: H0 : Ajusta ` a distribui¸c˜ ao de probabilidade definida . H1 : N˜ ao ajusta ` a distribui¸c˜ ao de probabilidade definida A segunda ´e a especifica¸c˜ ao de α. A terceira ´e a obten¸c˜ ao do valor da estat´ıstica do teste:

χ2c =

k X (Oi − Ei )2 i=1

Ei

Sendo considerado sob H0 que χ2c ∼ χ2(k−1 gl) . Em que: Oi : representa as frequˆencias observadas; Ei : representa as frequˆencias esperadas; Ei = n × pi , onde n ´e o tamanho da amostra e pi ´e a probabilidade afirmada da i-´esima categoria; k: representa o n´ umero de categorias ou resultados diferentes. E, por u ´ltimo, decidir de acordo com o valor da regi˜ao cr´ıtica. Se o valor da estat´ıstica pertencer a regi˜ ` ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ario, n˜ao se rejeita H0 . Conforme as hip´ oteses formuladas obtˆem-se a seguinte regi˜ao cr´ıtica:

FIGURA 43 Regi˜ao cr´ıtica conforme H1 Sendo que χ2tab = χ2(α; k−1 gl) . Para a realiza¸c˜ ao deste teste tem-se que levar em conta que as frequˆencias observadas devem ser obtidas por meio de uma amostra aleat´oria e que cada frequˆencia esperada deva ser maior ou igual a 5. Exemplo: Uma pesquisa feita junto a 320 fam´ılias de 5 filhos cada revelou a distribui¸c˜ao a seguir. Tais resultados se ajustam ` a distribui¸c˜ ao binomial com parˆametros n = 5 e p = 0,5? Usar α = 5%. N´ umero de meninas N´ umero de fam´ılias

0 18

1 56

2 110

3 88

4 40

5 8

Solu¸c˜ ao: Considerando X: a vari´ avel aleat´ oria nascimento de meninas, que segue a distribui¸c˜ao binomial com parˆ ametros n = 5 e p = 0,5, a distribui¸c˜ ao das frequˆencias esperadas para X ´e: X pi = P (X = x) UNIFAL-MG/Alfenas

0 0,03125

1 0,15625

2 0,3125

3 0,3125

4 0,15625

Profs. Fl´ avio Bittencourt/Adriana Dias

5 0,03125 93


Introdu¸c˜ ao ` a Bioestat´ıstica

10 TESTES QUI-QUADRADO

As frequˆencias esperadas podem ser calculadas por Ei = n × pi : E1 = 320 × 0,03125 = 10 E2 = 320 × 0,15625 = 50 E3 = 320 × 0,31250 = 100 E4 = 320 × 0,31250 = 100 E5 = 320 × 0,15625 = 50 E6 = 320 × 0,03125 = 10 Da´ı, tem-se: N´ umero de meninas No de fam´ılias observadas No de fam´ılias esperadas

0 18 10

1 56 50

2 110 100

3 88 100

4 40 50

5 8 10

As hip´ oteses em teste s˜ ao: H0 : Igualdade de nascimentos =⇒ Ajusta `a distribui¸c˜ao binomial . H1 : N˜ ao igualdade de nascimentos =⇒ N˜ao se ajusta a` distribui¸c˜ao binomial O n´ıvel de significˆ ancia ´e α = 5%.

A estat´ıstica do teste ´e: k 6 2 X X (O (Oi − Ei )2 i − Ei ) χ2c = = Ei Ei i=1 i=1 χ2c =

(18 − 10)2 (56 − 50)2 (110 − 100)2 (88 − 100)2 (40 − 50)2 (8 − 10)2 + + + + + = 11,96 10 50 100 100 50 10

O valor do Qui-quadrado tabelado foi encontrado baseando-se em χ2(α; k−1) = χ2(5%; 6−1) = χ2(5%; 5) = 11,070. Conforme o desenho, nota-se que o valor da estat´ıstica χ2c = 11,96 pertence `a regi˜ao de rejei¸c˜ ao de H0 . Conclui-se que se rejeita H0 ao n´ıvel de 5% de significˆ ancia ou seja, h´ a motivos para afirmar que a distribui¸c˜ ao observada n˜ ao se adere `a distribui¸c˜ ao binomial. 10.2

Teste de Independˆ encia

Ao estudar probabilidade foi visto que se dois eventos s˜ao independentes a ocorrˆencia de um evento n˜ ao afeta a ocorrˆencia do outro. Por exemplo, o lan¸camento de dados e moedas s˜ao independentes, ou experimentos com repeti¸c˜ ao e reposi¸c˜ ao. Este teste de hip´ oteses testa se a distribui¸c˜ao conjunta ´e o produto das distribui¸c˜oes marginais, o que s´ o ocorre quando existe independˆencia entre as vari´aveis aleat´orias. Neste caso as duas vari´ aveis aleat´orias (de uma mesma popula¸c˜ao) s˜ao organizadas numa tabela de dupla entrada (tabela de contingˆencia). Os valores esperados s˜ao obtidos pela raz˜ao do produto dos valores marginais e o tamanho da amostra. As quatro etapas para a realiza¸ca˜o do teste ´e: As hip´ o teses em teste s˜ ao: H0 : H´ a independˆencia entre as vari´ aveis . H1 : N˜ ao h´ a independˆencia entre as vari´aveis Especificar α. Obter a estat´ıstica do teste ´e: χ2c =

r×c X (Oi − Ei )2 i=1

Ei

Sendo considerado sob H0 que χ2c ∼ χ2[(r−1)(c−1) gl] Em que: Oi : representa as frequˆencias observadas; Ei = Er,c : representa as frequˆencias esperadas; 94

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Introdu¸c˜ ao ` a Bioestat´ıstica

10 TESTES QUI-QUADRADO

(Soma da linha r) × (Soma da coluna c) Er,c = Tamanho da amostra r e c: representam o n´ umero de linhas e colunas da tabela, respectivamente, excetuando-se os totais. E, por u ´ltimo, decidir de acordo com o valor da regi˜ao cr´ıtica. Se o valor da estat´ıstica pertencer a regi˜ ` ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ario, n˜ao se rejeita H0 . Conforme as hip´ oteses formuladas obt´em-se a seguinte regi˜ao cr´ıtica:

FIGURA 44 Regi˜ao cr´ıtica conforme H1 Sendo que χ2tab = χ2(α; [(r−1)(c−1)] gl) .

Exemplo: Os dados a seguir representam os resultados em pontos obtidos por estudantes em Estat´ıstica e C´ alculo I. Testar a hip´ otese de que os resultados em Estat´ıstica s˜ao independentes dos resultados obtidos em C´ alculo, ao n´ıvel de 2,5% de significˆancia. C´ alculo I 0≤n<5 5≤n<7 7 ≤ n ≤ 10 Total

0≤n<5 75 29 15 119

Estat´ıstica 5 ≤ n < 7 7 ≤ n ≤ 10 35 13 120 32 70 46 225 91

Total 123 181 131 435

Solu¸c˜ ao: Inicialmente, calcula-se as frequˆencias esperadas, sendo: (Soma da linha r) × (Soma da coluna c) Er,c = Tamanho da amostra (123) × (119) (181) × (91) E1,1 = = 33,6483 = 37,8644 E2,3 = 435 435 (123) × (225) (131) × (119) E1,2 = E3,1 = = 63,6207 = 35,8368 435 435 (123) × (91) (131) × (225) E1,3 = = 25,7310 E3,2 = = 67,7586 435 435 (181) × (119) (131) × (91) E2,1 = = 49,5149 E3,3 = = 27,4046 435 435 (181) × (225) E2,2 = = 93,6207 435 Assim, C´ alculo I 0≤n<5 5≤n<7 7 ≤ n ≤ 10 Total

0≤n<5 75(33,6483) 29(49,5149) 15(35,8368) 119

Estat´ıstica 5≤n<7 35(63,6207) 120(93,6207) 70(67,7586) 225

7 ≤ n ≤ 10 13(25,7310) 32(37,8644) 46(27,4046) 91

Total 123 181 131 435

Os valores entre parˆ enteses representam as frequˆ encias esperadas

As hip´ oteses em teste s˜ ao: H0 : As vari´ aveis s˜ ao independentes . H1 : As vari´ aveis s˜ ao n˜ ao independentes O n´ıvel de significˆ ancia ´e α = 2,5%.

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

95


Introdu¸c˜ ao ` a Bioestat´ıstica

10 TESTES QUI-QUADRADO

A estat´ıstica do teste ´e: r×c 9 2 X X (O (Oi − Ei )2 i − Ei ) 2 χc = = Ei Ei i=1 i=1 (75 − 33,6483)2 (35 − 63,6207)2 (46 − 27,4046)2 + + ··· + = 111,6413 33,6483 63,6207 27,4046 O valor do Qui-quadrado tabelado obtido ´e: χ2c =

χ2[α; (r−1)(c−1)] = χ2[2,5%; (3−1)(3−1) gl] = χ2(2,5%; 4 gl) = 11,143

Conforme o desenho, nota-se que o valor da estat´ıstica χ2c = 111,641 pertence ` a regi˜ao de rejei¸c˜ ao de H0 . Portanto, rejeita-se H0 ao n´ıvel de 2,5% de significˆ ancia, ou seja, h´ a motivos para afirmar que as vari´ aveis n˜ ao s˜ ao independentes. 10.3

Teste de Homogeneidade

Este teste ´e usado pada determinar se v´arias propor¸c˜oes s˜ao iguais quando amostras s˜ao tiradas de popula¸c˜ oes diferentes. Embora o teste seja semelhante ao teste de independˆencia, aqui o interesse ´e o de verificar as propor¸c˜ oes, ou seja, se o comportamento de cada c´elula ´e “o mesmo”. N˜ao se est´ a verificando as vari´ aveis (teste de independˆencia) e sim as propor¸c˜oes (valores das c´elulas). Conforme anteriormente descrito, as etapas para a realiza¸c˜ao do teste ´e semelhante `as demais: As hip´ o teses em teste s˜ ao: H0 : As propor¸c˜ oes s˜ ao iguais . H1 : No m´ınimo uma das propor¸c˜ oes ´e diferente das outras Especificar α. Obter a estat´ıstica do teste ´e: χ2c =

r×c X (Oi − Ei )2 i=1

Ei

Sendo considerado sob H0 que χ2c ∼ χ2[(r−1)(c−1) gl] Em que: Oi : representa as frequˆencias observadas; Ei = Er,c : representa as frequˆencias esperadas; (Soma da linha r) × (Soma da coluna c) Er,c = Tamanho da amostra r e c: representam o n´ umero de linhas e colunas da tabela, respectivamente, excetuando-se os totais. E, por u ´ltimo, decidir de acordo com o valor da regi˜ao cr´ıtica. Se o valor da estat´ıstica pertencer a regi˜ ` ao cr´ıtica, rejeita-se H0 no n´ıvel de significˆancia especificado, caso contr´ario, n˜ao se rejeita H0 . Conforme as hip´ oteses formuladas obt´em-se a seguinte regi˜ao cr´ıtica:

FIGURA 45 Regi˜ao cr´ıtica conforme H1 Sendo que χ2tab = χ2(α; [(r−1)(c−1)] gl) . 96

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Introdu¸c˜ ao ` a Bioestat´ıstica

10 TESTES QUI-QUADRADO

Exemplo: O sexo de um pesquisador tem influˆencia nas respostas dadas por homens a uma pesquisa, ao n´ıvel de 5% de significˆ ancia? Os dados a seguir foram coletados considerando uma amostra de 1.200 homens. Categorias Homens que concordam Homens que discordam Total

Sexo do entrevistador Homem Mulher 560 308 240 92 800 400

Total 868 332 1200

Solu¸c˜ ao: Inicialmente, calcula-se as frequˆencias esperadas, sendo: (Soma da linha r) × (Soma da coluna c) Er,c = Tamanho da amostra (868) × (800) = 578,6667 1200 (868) × (400) = = 289,3333 1200

(332) × (800) = 221,3333 1200 (332) × (400) = = 110,6667 1200

E1,1 =

E2,1 =

E1,2

E2,2

Assim, Categorias Homens que concordam Homens que discordam Total

Sexo do entrevistador Homem Mulher 560(578,6667) 308(289,3333) 240(221,3333) 92(110,6667) 800 400

Total 868 332 1200

As hip´ oteses em teste s˜ ao:  oes de respostas concordo/discordo s˜ao as mesmas tanto para os  H0 : As propor¸c˜ entrevistados por homens como para os entrevistados por mulheres .  H1 : No m´ınimo uma das propor¸c˜ oes de resposta ´e diferente das outras O n´ıvel de significˆ ancia ´e α = 5%. A estat´ıstica do teste ´e: r×c 4 2 X X (O (Oi − Ei )2 i − Ei ) χ2c = = Ei Ei i=1 i=1 (560 − 578,6667)2 (308 − 289,3333)2 (240 − 221,3333)2 (92 − 110,6667)2 + + + = 6,5264 578,6667 289,3333 221,3333 110,6667 O valor do Qui-quadrado tabelado foi encontrado baseando-se em

χ2c =

χ2[α; (r−1)(c−1)] = χ2[5%; (2−1)(2−1)] = χ2(5%; 1) = 3,841 Conforme o desenho, nota-se que o valor da estat´ıstica χ2c = 6,5264 pertence ` a regi˜ ao de rejei¸c˜ ao de H0 . Portanto, rejeita-se H0 ao n´ıvel de 5% de significˆ ancia, ou seja, h´ a motivos para afirmar que no m´ınimo uma das propor¸c˜ oes de resposta ´e diferente das outras. Observa¸ c˜ ao: Todos estes testes podem ser realizados desde que o n´ umero de observa¸c˜oes em cada casela (c´elula) da tabela seja maior ou igual a 5 e a frequˆencia esperada tamb´em. Caso n˜ao seja atendida esta condi¸c˜ ao, em cada classe deve ser utilizada a corre¸c˜ao de Yates. UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

97


Introdu¸c˜ ao ` a Bioestat´ıstica

10.3.1

10 TESTES QUI-QUADRADO

Exerc´ıcios

1. Para verificar se um dado ´e honesto lan¸cou-se-o 1200 vezes anotando quantas vezes cada face ocorreu: Face Ocorrˆencia

1 180

2 207

3 191

4 203

5 210

6 209

Total 1200

Pergunta-se: existem raz˜ oes para duvidar da honestidade do dado? Teste ao n´ıvel de 5% de significˆancia. 2. Um pesquisador conseguiu uma s´erie de dados dos u ´ltimos 120 anos com o registro do n´ umero de ocorrˆencia de uma doen¸ca rara. Os dados obtidos foram: N´ umero de ocorrˆencias (xi ) N´ umero de anos (fi )

0 55

1 40

2 17

3 5

4 2

5 1

a) Estime o n´ umero m´edio de ocorrˆencias/ano. b) Calcule para cada valor da vari´ avel aleat´oria X, as probabilidades associadas. Suponha que X possua distribui¸c˜ ao de Poisson e que a m´edia amostral ´e o estimador do parˆametro λ da distribui¸c˜ao Poisson. c) Calcule a frequˆencia esperada (em n´ umero de anos) para cada valor de X. d) Compare os resultados esperados com os observados. Com base nesta compara¸c˜ao, vocˆe pode afirmar que a distribui¸c˜ ao de Poisson ´e adequada para explicar a ocorrˆencia desta doen¸ca na regi˜ao de estudo? Justifique, usando α = 5%. 3. Muitas pessoas acreditam que, quando um cavalo inicia uma corrida, tem mais chance de ganhar se sua posi¸c˜ ao na linha de partida est´ a mais pr´ oxima do limite interno da pista. A posi¸c˜ao 1 est´a mais pr´oxima do limite interno, seguida pela posi¸c˜ ao 2, e assim por diante. Os dados a seguir relaciona o n´ umero de vit´ orias de cavalos nas diferentes posi¸c˜ oes de partida. Teste a afirma¸c˜ao de que as probabilidades de vit´ oria n˜ ao s˜ ao as mesmas para as diferentes posi¸c˜oes de partida ao n´ıvel de 5% de significˆancia. Considere ao a probabilidade de ganhar ´e a mesma. P (X = x) = 18 , ou seja, em cada posi¸c˜

N´ umero de vit´ orias

1 29

2 19

Posi¸c˜ao de partida 3 4 5 6 7 18 25 17 10 15

8 11

4. Os dados seguintes vˆem de um estudo concebido para investigar problemas de bebida entre os estudantes universit´ arios. Em 1983, foi perguntado a um grupo quem j´a dirigiu um autom´ovel depois de beber. Em 1987, depois de atingida a idade legal para o consumo de bebidas alco´olicas, foi feito o mesmo questionamento a outro grupo universit´ ario. Dirigia enquanto bebia Sim N˜ ao Total

Ano 1983 1987 1.250 991 1.387 1.666 2.637 2.657

Total 2.241 3.053 5.294

a) Qual teste qui-quadrado ser´ a usado: aderˆencia, homogeneidade, independˆencia? b) Use o teste qui-quadrado e α = 0,05 para avaliar a hip´otese nula de que as propor¸c˜oes de estudantes da popula¸c˜ ao que dirigia enquanto bebia s˜ ao as mesmas nos dois anos. 5. Uma empresa embala certo produto em latas de trˆes tamanhos diferentes, cada uma utilizando uma linha de produ¸c˜ ao distinta. A maioria das latas atende `as especifica¸c˜oes, mas um engenheiro de controle de qualidade identificou as seguintes raz˜ oes para n˜ao-conformidade: mancha na lata, rachadura na lata, localiza¸c˜ ao impr´ opria da aba de abrir, falta da aba de abrir e outros. Uma amostra de unidades em n˜ ao-conformidade ´e selecionada de cada uma das trˆes linhas, e cada unidade ´e classificada de acordo com a raz˜ ao para n˜ ao-conformidade, resultando na seguinte tabela de dados de contingiˆencia: Linhas de produ¸c˜ ao 1 2 3 Total

98

Mancha 34 23 32 89

Raz˜ oes para a n˜ao-conformidade Rachadura Localiza¸c˜ao Faltando 65 17 21 52 25 19 28 16 14 145 58 54

Profs. Fl´ avio Bittencourt/Adriana Dias

Outros 13 6 10 29

Tamanho da amostra 150 125 100 375

UNIFAL-MG/Alfenas


˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Estat´ıstica B´ asica

Os dados sugerem que as propor¸c˜ oes que caem em v´arias categorias de n˜ao-conformidade n˜ao s˜ao as mesmas para as trˆes linhas? Use α = 0,05. 6. Os dados a seguir resultaram de um experimento para o estudo dos efeitos da remo¸c˜ao das folhas na habilidade da fruta de um determinado tipo de amadurecer: Tratamento Controle Duas folhas removidas Quatro folhas removidas Seis folhas removidas Oito folhas removidas

N´ umero de frutas maduras 141 28 25 24 20

N´ umero de frutas abortadas 206 69 73 78 82

Os dados sugerem que a chance do amadurecimento da fruta ´e afetada pelo n´ umero de folhas removidas? Enuncie e teste as hip´ oteses apropriadas no n´ıvel de 0,01. 7. Um estudo de acidentes de autom´ ovel e motoristas que usam telefone celular selecionados aleatoriamente acusou os seguintes dados amostrais. Com o n´ıvel de 0,05 de significˆancia, teste a afirma¸c˜ao de que a ocorrˆencia de acidentes ´e independente do uso de telefone celular. Com base nesses resultados, parece que a utiliza¸c˜ ao de celulares afeta a seguran¸ca da dire¸c˜ao? Use α = 5%

Usa telefone celular N˜ ao usa o telefone celular

11 11.1

Com acidente no ano passado 23 46

Sem acidente no ano passado 282 407

˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES CORRELAC ¸ AO

Diagrama de dispers˜ ao

´ um gr´ E afico u ´til para examinar o relacionamento entre duas vari´aveis quantitativas, sendo formado por pontos (pares ordenados) observados nas vari´aveis quantitativas X (abscissas) e Y (ordenadas) em um plano coordenado. Exemplo: O diagrama de dispers˜ao apresentado na Figura 46 foi confeccionado a partir de um conjunto de dados obtido de 50 amostras das trˆes esp´ecies de ´ıris16 (Iris setosa, Iris virginica e Iris versicolor), resultante de uma pesquisa realizada por Edgar Anderson na qual Ronald Fisher desenvolveu um modelo discriminante linear para distinguir cada esp´ecie. FIGURA 46 Conjunto de dados de ´Iris de Fisher

Com base no diagrama de dispers˜ao acima apresentado, pode-se observar que conforme o comprimento da p´etala aumenta, a largura tende a aumentar. Este gr´ afico ´e importante tamb´em para se observar o comportamento das vari´aveis X e Y , por exemplo, se existe ou n˜ ao um comportamento aproximadamente linear, quadr´atico, c´ ubico, exponencial, log´ıstico etc. 11.2

Coeficiente de Correla¸ c˜ ao Linear Conforme o diagrama dispers˜ ao dos pares de pontos das vari´aveis X e Y , a correla¸c˜ao se classifica

em: 16

http://en.wikipedia.org/wiki/Iris flower data set. Acesso em: 24 jul. 2014

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

99


˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Estat´ıstica B´ asica

a) correla¸ c˜ ao positiva

b) correla¸ ca ˜o fortemente positiva

c) correla¸ ca ˜o negativa

d) correla¸ ca ˜o fortemente negativa

e) correla¸ ca ˜o nula

f) correla¸ ca ˜o nula

FIGURA 47 Tipos de relacionamentos entre X e Y As Figuras 47a e 47b mostram que as vari´aveis apresentam uma correla¸c˜ao positiva, isto significa que valores altos de uma vari´ avel est˜ ao associados a valores altos da outra vari´avel. J´a nas Figuras 47c e 47d as vari´ aveis apresentam correla¸c˜ ao negativa indicando que valores altos de uma vari´avel est˜ ao associados a valores baixos da outra vari´ avel. O pen´ ultimo e o u ´ltimo gr´ afico (Figuras 47e e 47f) exemplificam casos em que a correla¸c˜ ao linear ´e nula. O u ´ltimo gr´ afico ilustra uma dispers˜ao na qual X e Y est˜ao intimamente ligados, mas a rela¸c˜ ao n˜ ao ´e linear. Isto acontece porque o coeficiente de correla¸c˜ao s´o ´e uma medida u ´til da for¸ca da rela¸c˜ ao entre duas vari´ aveis quando elas est˜ao relacionadas linearmente. O fato de que duas vari´ aveis estejam correlacionadas n˜ao implica uma rela¸c˜ao de causalidade (causa e efeito) entre as vari´ aveis, quer dizer, que a vari´avel X cause Y ou vice-versa. Por outro lado, o fato da correla¸c˜ ao ser igual a zero n˜ ao implica que as vari´aveis n˜ao est˜ao correlacionadas, elas podem n˜ ao possuir um comportamento linear, como a Figura 47f. Observar um diagrama de dispers˜ao para interpretar a correla¸c˜ao entre vari´aveis ´e importante por´em ´e subjetivo. Um observador poder´a achar que as duas vari´aveis possuem uma rela¸c˜ao linear, enquanto outro n˜ ao acharia ser t˜ ao linear. Portanto, uma forma mais precisa de se medir a correla¸c˜ ao linear entre duas vari´ aveis ´e por meio de um valor num´erico quantificando esta rela¸c˜ao. O coeficiente de correla¸c˜ ao linear ´e uma t´ecnica estat´ıstica empregada para medir a associa¸c˜ ao (rela¸c˜ ao, correla¸c˜ ao) entre duas vari´ aveis. Ele quantifica o grau de associa¸c˜ao entre duas vari´aveis aleat´ orias, desde que a rela¸c˜ ao seja linear, em uma escala absoluta variando no intervalo [−1, 1]. A utiliza¸c˜ ao do coeficiente de correla¸c˜ ao como medida da rela¸c˜ao ente vari´aveis apresenta algumas vantagens, entre as quais se destaca o fato de este coeficiente ser adimensional, ou seja, n˜ao depender da unidade de medida das vari´ aveis aleat´ orias. O coeficiente de correla¸c˜ ao linear ´e obtido pela F´ormula 1: n X n X

r = v u u u u n uX 2 u xi − u u i=1 t

xi yi −

xi

i=1

n X

yi

i=1

n

i=1

(1)

n X

!2   xi

i=1

n

 n  X  yi2 −     i=1

n X

!2  yi

i=1

n

     

Conforme o valor obtido no intervalo [−1, 1], a correla¸c˜ao r ´e classificada como [??]: • fraca quando 0 ≤ |r| ≤ 0,5; • forte se 0,8 ≤ |r| ≤ 1; • moderada, caso contr´ ario. Enquanto que para [??], a intensidade do relacionamento de coeficientes de correla¸c˜ao positivos e negativos pode ser categorizada da seguinte forma: 100

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Estat´ıstica B´ asica

Perfeita

−1

+1 −0,9

+0,9 −0,8

Forte

+0,8 −0,7

+0,7 −0,6

+0,6 −0,5

Moderada

+0,5 −0,4

+0,4 −0,3

+0,3 −0,2

Fraca

+0,2 −0,1

Zero (nula)

+0,1 0

Este coeficiente de correla¸c˜ ao ´e tamb´em conhecido como r de Pearson e o seu nome completo ´ um teste param´etrico, portanto para o seu c´alculo ´e coeficiente de correla¸c˜ ao momento produto. E ´e necess´ ario que os dados sejam provenientes de uma popula¸c˜ao normalmente distribu´ıda. Se houver motivos para crer que essa condi¸c˜ ao n˜ ao fora atendida deve-se usar o equivalente n˜ao param´etrico do r de Pearson, chamado de ρ de Spearman [??]. Em an´ alise de regress˜ ao usa-se elevar o r de Pearson ao quadrado para se ter uma medida da variˆ ancia explicada, expressa em porcentagem, o que ´e v´alido somente em modelo de regress˜ao linear simples. O r2 varia de 0 a 1, quanto maior o seu valor, mais explicativo ´e o modelo, ou seja, melhor ele se ajusta aos valores observados. Por exemplo, se o r2 de um modelo ´e 0,8932, significa que 89,32% da varia¸c˜ ao da vari´ avel dependente consegue ser explicada pelo modelo ajustado. Exemplo 1: Em um estudo conduzido na It´alia, 10 pacientes com hipertrigliceridemia foram colocados sob dieta de baixas gorduras e altos carboidratos. Antes de inici´a-la, as medidas de colesterol e de triglicer´ıdeos foram registradas para cada indiv´ıduo. Paciente 1 2 3 4 5 6 7 8 9 10

N´ıvel de Colesterol (mmol/L) 5,12 6,18 6,77 6,65 6,36 5,90 5,48 6,02 10,34 8,51

N´ıvel de Triglicer´ıdeos (mmol/L) 2,30 2,54 2,95 3,77 4,18 5,31 5,53 8,83 9,48 14,20

a) Construa um gr´ afico de dispers˜ ao para esses dados. b) H´ a alguma evidˆencia de uma rela¸c˜ ao linear entre os n´ıveis de colesterol e de triglicer´ıdeos antes da dieta? c) Calcule o coeficiente de correla¸c˜ ao r. Solu¸c˜ ao: a)

FIGURA 48 Diagrama de dispers˜ao: n´ıvel de colesterol e n´ıvel de triglicer´ıdeos

´ dif´ıcil afirmar. Por´em, parece haver uma rela¸c˜ao linear moderada. b) E c) UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

101


˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Estat´ıstica B´ asica

Paciente 1 2 3 4 5 6 7 8 9 10 Somas

xi 5,12 6,18 6,77 6,65 6,36 5,90 5,48 6,02 10,34 8,51 10 X

10 X

xi = 76,33

i=1

r = v u u u u n uX 2 u xi − u ui=1 t

yi = 59,09

i=1

n X n X

x2i 26,21 38,19 45,83 44,22 40,45 34,81 30,03 36,24 106,92 72,42

yi 2,30 2,54 2,95 3,77 4,18 5,31 5,53 8,83 9,48 14,20

xi yi −

xi

i=1

i=1

n

10 X

xi yi 11,78 15,70 19,97 25,07 26,58 31,33 30,30 53,16 98,02 120,84

2

yi = 480,3857

i=1

10 X

xi yi = 432,7552

i=1

yi

i=1

!2   xi

2

xi = 475,3283

i=1

n

i=1 n X

n X

10 X

yi2 5,29 6,45 8,70 14,21 17,47 28,20 30,58 77,97 89,87 201,64

 n  X  2 yi −    i=1

76,33 × 59,09 432,7552 − 10 = v ! ! = 0,6497 !2  u n 2 u X 76,33 (59,09)2 t 475,3283 − 480,3857 − yi   10 10 i=1    n 

De posse do valor obtido, r = 0,6497, e observando a classifica¸c˜ao de [??] e [??], conclue-se que h´ a uma correla¸c˜ ao moderada. Exemplo 2: O diagrama de dispers˜ao mostra que as vari´aveis possuem uma correla¸c˜ ao de: a)+1,00 b)−1,00 c)+0,70 // d)−0,70 e) n˜ ao tem correla¸c˜ ao

11.2.1

Exerc´ıcios

1. O n´ umero de horas que 12 estudantes passam on-line durante o fim de semana e a nota de cada estudante na prova de estat´ıstica na segunda-feira seguinte s˜ao: Horas gastas on-line Nota

0 96

1 85

2 82

3 74

3 95

5 68

5 76

5 84

6 58

7 65

7 75

10 50

Fa¸ca o diagrama de dispers˜ ao, calcule o coeficiente de correla¸c˜ao e decida sobre o tipo de correla¸c˜ao e o que isto significa na pr´ atica. 2. Uma pesquisa tinha por objetivo relacionar os sal´arios mensais (em milhares de R$) recebidos por executivos homens e mulheres que exerciam a mesma fun¸c˜ao. Observou-se os seguintes dados: Mulheres Homens

13,2 14,8

19,3 21,5

18,5 16,4

20,1 23,5

14,8 13,5

14,0 17,8

19,5 18,9

Fa¸ca o diagrama de dispers˜ ao, calcule o coeficiente de correla¸c˜ao e interprete-o. 3. Algumas pessoas acreditam que o comprimento da linha da vida de sua m˜ao pode ser usado para predizer a longevidade. Um estudo foi realizado e os autores refutam esta cren¸ca com o estudo de cad´ averes. Em termos de correla¸c˜ ao entre as vari´aveis o que eles encontraram? 4. Tempo gasto trabalhando com m´ aquinas agr´ıcolas e audi¸c˜ao ruim tem uma correla¸c˜ao negativa. O que vocˆe deve concluir? a) Pessoas com audi¸c˜ ao ruim tˆem maior probabilidade de passar longas horas trabalhando com m´aquinas agr´ıcolas. b) Trabalhar por longas horas pode causar danos `a audi¸c˜ao. c) Um tipo espec´ıfico de personalidade pode ter maior probabilidade de ter audi¸c˜ao ruim e de trabalhar longas horas em m´ aquinas agr´ıcolas. d) Qualquer uma das alternativas, pois correla¸c˜ao n˜ao significa causalidade. e) Nada se pode afirmar, pois n˜ ao existe correla¸c˜ao negativa. 102

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

11.3

˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Regress˜ ao Linear Simples

Muitas vezes ao observar um diagrama de dispers˜ao tem-se uma ideia de que as vari´aveis X e Y possuem um comportamento conhecido, podendo ser linear, quadr´atico, c´ ubico, exponencial, logar´ıtmico, log´ıstico etc. Em uma situa¸c˜ ao de modelagem t´ıpica, um cientista deseja obter uma rela¸c˜ao matem´atica entre duas vari´ aveis X e Y usando um conjunto de n pares ordenados de medi¸c˜oes (x1 ,y1 ), (x2 ,y2 ), (x3 ,y3 ), · · · (xn ,yn )

(2)

que estabelecem uma rela¸c˜ ao entre valores correspondentes das vari´aveis. Dois fenˆomenos podem ser distinguidos: os fenˆ omenos determin´ısticos, em que cada valor de X determina um valor de Y , e os fenˆ omenos probabil´ısticos, em que n˜ ao ´e determinado de maneira u ´nica o valor de Y associado a um valor espec´ıfico de X. Por exemplo, se Y ´e a quantidade de alongamento que uma for¸ca X provoca em uma mola, ent˜ ao cada valor de X determina um u ´nico Y e, portanto, constitui um modelo determin´ıstico. Por outro lado, se Y ´e o peso de uma pessoa cuja altura ´e X, ent˜ao Y n˜ao est´a determinado de maneira u ´nica por X, j´ a que pessoas com mesma altura podem ter pesos diferentes. Mas, mesmo assim, existe uma rela¸c˜ ao entre peso e altura, que faz com seja mais prov´avel que uma pessoa alta pese mais, portanto, isso ´e um fenˆ omeno probabil´ıstico. Em um modelo determin´ıstico, a vari´avel Y ´e uma fun¸c˜ao da vari´avel X, e o objetivo ´e encontrar uma f´ ormula y = f (x) que melhor descreva os dados. Uma maneira de modelar um conjunto de dados determin´ısticos ´e procurar uma fun¸c˜ao f , denominada fun¸c˜ao fun¸ c˜ ao interpoladora, cujo gr´ afico passe por todos os pontos de dados. Embora as fun¸c˜oes interpoladoras sejam apropriadas em certas situa¸c˜ oes, elas n˜ ao d˜ ao conta de maneira adequada dos erros de medi¸c˜ao. Por exemplo, suponha que foram levantados os seguintes dados referentes `as vari´aveis X e Y e confeccionado o gr´afico apresentado na Figura 49(a). Em tais dados pode ser ajustado um polinˆomio de grau dez cujo gr´afico passa por todos os pares de pontos como mostra a Figura 49(b). Contudo um modelo polinomial n˜ao consegue transmitir a rela¸c˜ ao de linearidade subjacente aos dados. Uma abordagem melhor ´e procurar uma equa¸c˜ao linear y = ax + b cujo gr´ afico descreve melhor a rela¸c˜ao linear dos dados, mesmo que esse gr´afico n˜ao passe por todos ou por qualquer um dos pontos de dados como est´a representado na Figura 49(c).

a) Diagrama de dispers˜ ao

b) Polinˆ omio de grau dez ajustado

c) Reta de regress˜ ao ajustada

FIGURA 49 Gr´afico das vari´aveis X e Y A obten¸c˜ ao do gr´ afico da Figura 49(c) ´e feita por meio de t´ecnicas estat´ısticas chamada de an´ alise de regress˜ ao. A an´ alise de regress˜ao consiste na realiza¸c˜ao de c´alculos que permitem determinar a existˆencia de uma rela¸c˜ ao funcional entre uma vari´avel dependente com uma ou mais vari´aveis independentes. Ou seja, consiste na obten¸c˜ao de uma equa¸c˜ao que tenta explicar a varia¸c˜ao da vari´ avel dependente pela varia¸c˜ ao dos n´ıveis da(s) vari´avel(is) independente(s). As vari´aveis dependentes e independentes s˜ ao classificadas como quantitativas. Ao se escolher um modelo para descrever o comportamento de vari´aveis, ele deve ser coerente com o que acontece na pr´ atica. Para isso, deve-se considerar no momento de se escolher o modelo: • O modelo selecionado est´ a condizente tanto no grau como no aspecto da curva para representar em termos pr´ aticos o fenˆ omeno em estudo? • O modelo cont´em apenas as vari´ aveis que s˜ao relevantes para explicar o fenˆomeno? O M´etodo dos M´ınimos Quadrados ´e utilizado para a obten¸c˜ao de um modelo matem´atico (equa¸c˜ ao) que melhor se ajuste aos dados, ou seja, que determine a melhor rela¸c˜ao funcional entre as vari´ aveis. Este m´etodo se baseia na obten¸c˜ao de uma equa¸c˜ao estimada de tal forma que as distˆancias UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

103


Estat´ıstica B´ asica

˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

entre os pontos do diagrama e os pontos da curva do modelo matem´atico, em geral, sejam as menores poss´ıveis. Resumindo: com este m´etodo a soma de quadrados das distˆancias entre os pontos do diagrama e dos respectivos pontos na curva da equa¸c˜ao estimada ´e minimizada, obtendo-se, desta forma, uma rela¸c˜ ao funcional entre X e Y , para o modelo escolhido, com um m´ınimo de erro poss´ıvel. O erro (tamb´em denominado res´ıduo) ei corresponde `a diferen¸ca entre um valor observado yi e o valor estimado yˆi obtido a partir da equa¸c˜ao estimada: ei = yi − yˆi . Para uma melhor compreens˜ ao observe a Figura 50.

FIGURA 50 Esquematiza¸c˜ao dos erros: ei = yi − yˆi Note que para cada ponto observado existe um ponto estimado, portanto h´a tanto erros quanto pares de pontos. Embora existam diversos modelos, este material apenas abordar´a o modelo (3) que ´e conhecido como modelo de regress˜ ao linear simples: yi = β0 + β1 xi + ei

(3)

Em que: • yi : ´e o valor observado para a vari´ avel dependente Y no i-´esimo n´ıvel da vari´avel independente X; • β0 : ´e a constante de regress˜ ao. Representa o intercepto da reta com o eixo-y; • β1 : coeficiente de regress˜ ao. Representa a varia¸c˜ao de Y em fun¸c˜ao da varia¸c˜ao de uma unidade da vari´ avel X; • xi : ´e o i-´esimo n´ıvel da vari´ avel independente, i = 1,2,3, · · · ,n; • ei : ´e o erro associado ` a distˆ ancia entre o valor observado yi e o correspondente ponto na curva do modelo proposto para o mesmo n´ıvel i de X. Este modelo ´e denominado modelo estat´ıstico por considerar um erro associado a cada observa¸c˜ ao, diferentemente do modelo matem´ atico. A regress˜ ao linear simples tem por objetivo encontrar valores (estimativas βˆ0 e βˆ1 ) dos parˆ ametros do Modelo (3) os quais minimizam a distˆancia entre os pontos (valores observados) do diagrama de dispers˜ ao e a curva a ser ajustada. Por meio do m´etodo dos m´ınimos quadrados, as estimativas dos parˆ ametros do modelo linear ´e obtido por: βˆ0 = y¯ − βˆ1 x ¯ n P

βˆ1 =

yi xi −

n P

xi

i=1

n

i=1

x2i −

yi

i=1

i=1

n P

n P

(4)

n P

2 xi

=

SP Dxy SQDx

(5)

i=1

n

Na pr´ atica, determina-se βˆ1 em primeiro lugar e depois βˆ0 . A estimativa do coeficiente de regress˜ ao βˆ1 mede o quanto muda na vari´avel dependente Yˆ por uma mudan¸ca unit´aria na vari´avel 104

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Estat´ıstica B´ asica

independente X. Os valores (estimativas dos parˆametros) obtidos pelo m´etodo dos m´ınimos quadrados s˜ ao os melhores valores que podem ser usados para descrever a rela¸c˜ao entre as duas vari´aveis. Exemplo 1: Sejam os dados a seguir: x y

4 10

7 16

10 20

12 24

17 30

Admitindo que as vari´ aveis X e Y est˜ ao relacionadas de acordo com o modelo yi = β0 + β1 xi + ei , determine as estimativas dos parˆ ametros da equa¸c˜ao de regress˜ao linear e trace o gr´afico. Solu¸c˜ ao 5 P

n = 5;

5 P

xi = 50;

i=1

i=1 5 P

5 P

βˆ1 =

xi yi −

xi

i=1

x2i −

yi = 100;

i=1

5 P i=1

yi2 = 2232;

5 P

xi yi = 1150

i=1

yi

n

i=1

5 P

5 P

i=1

i=1

5 P

x2i = 598;

5 P

2

=

150 = 1,5306 98

100 50 βˆ0 = y¯ − βˆ1 x ¯= − 1,5306 × = 4,6940 5 5

xi

i=1

n

Assim, a equa¸c˜ ao obtida ´e: yˆi = 4,6940 + 1,5306xi O gr´ afico ´e o apresentado a seguir:

FIGURA 51 Diagrama de dispers˜ao e gr´afico da equa¸c˜ao ajustada Exemplo 2: Uma empresa que fabrica medicamentos realizou um levantamento do custo total de um seus produtos (Y ), expresso em R$ 1.000,00, em fun¸c˜ao do n´ umero total de medicamentos (X) produzidos, expresso em unidades, durante cinco meses, com o objetivo de montar uma regress˜ao linear simples entre essas vari´ aveis, obteve-se os somat´orios: X X X X X x = 440 y = 120 xy = 12.300 x2 = 49.450 y 2 = 3.200 Nessas condi¸c˜ oes, pede-se: a) a reta que melhor ajuste a esses dados. b) o valor do coeficiente de correla¸c˜ ao linear. c) o valor mais prov´ avel dos custos fixos. d) o valor predito do custo vari´ avel para uma produ¸c˜ao de 500 unidades. e) o valor predito do custo total para uma produ¸c˜ao de 500 unidades. Solu¸c˜ ao: a) yˆ = 9,7264 + 0,1622x b) r = 0,9390 c) O valor mais prov´ avel dos custos fixos ´e dado por βˆ0 , portanto, 9,7264 × 1.000 = R$ 9.726,40. d) O custo vari´ avel ´e dado por βˆ1 , portanto, 0,1622 × 500 × 1.000 = R$ 81.100,00. e) O custo total ´e dado pelo modelo completo, portanto, (9,7264 + 0,1622 × 500) × 1.000 = R$ 90.826,40.

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

105


Estat´ıstica B´ asica

˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Exemplo 3: Nos 11 anos anteriores `a aprova¸c˜ ao do Ato Federal de Seguran¸ca e Sa´ ude das Minas de Carv˜ ao de 1969, as taxas de fatalidade para os mineiros no subsolo pouco variavam. Depois da sua implementa¸c˜ ao, no entanto, as taxas de fatalidade diminu´ıram rapidamente at´e 1979. As taxas para os anos de 1970 at´e 1981 s˜ ao fornecidas a seguir; para fins computacionais, os anos foram convertidos para uma escala que se inicia em 1.

Ano Calend´ ario

Ano

1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981

1 2 3 4 5 6 7 8 9 10 11 12

Taxa de fatalidade por 1000 empregados 2,419 1,732 1,361 1,108 0,996 0,952 0,904 0,792 0,701 0,890 0,799 1,084

a) Construa um gr´ afico de dispers˜ ao da taxa de fatalidade versus o tempo. O que este gr´afico sugere sobre a rela¸ca˜o entre as vari´ aveis? b) Para modelar a tendˆencia nas taxas de fatalidade, ajuste a linha de regress˜ao de m´ınimos quadrados Yˆ = βˆ0 + βˆ1 X, onde X representa o tempo (ano). c) Transforme a vari´ avel explicativa X para ln X. Crie um gr´afico de dispers˜ao da taxa de fatalidade versus o logaritmo natural do tempo (ano). d) Ajuste o modelo de m´ınimos quadrados Yˆ = βˆ0 + βˆ1 ln X e) Calcule o quadrado do coeficiente de correla¸c˜ao (r2 ), tamb´em denominado de coeficiente de determina¸c˜ ao, e sugira qual modelo ´e mais indicado para descrever as vari´aveis. Solu¸c˜ ao: Os gr´ aficos referentes a cada situa¸c˜ ao se encontram na Figura 52. Em: (a) n˜ao se observa tendˆencia linear; (b) o modelo ajustado ´e yˆ = 1,8056 − 0,1017x; (d) o modelo ajustado ´e yˆ = 2,1352 − 0,5946x∗ , em que x∗ = ln(x); (e) O coeficiente de determina¸c˜ao para o modelo da letra (b) ´e 55,90% e para o modelo (d) ´e 59,64%, logo o u ´ltimo modelo ´e o mais indicado. O valor do seu r2 significa que 59,64% da varia¸c˜ ao da vari´ avel dependente (Ano) consegue ser explicada pelo modelo ajustado.

a) Diagrama de dispers˜ ao: Ano versus Taxa de fatalidade

b) Modelo ajustado: yˆ = 1,8056 − 0,1017x

c) Diagrama de dispers˜ ao: Ano versus logaritmo da Taxa de fatalidade

d) Modelo ajustado: yˆ = 2,1352 − 0,5946x∗

FIGURA 52 Gr´aficos referentes ao exerc´ıcio 11.3.1

Exerc´ıcios

1. Ajustar a equa¸c˜ ao de regress˜ ao linear aos dados amostrais apresentados abaixo e confeccionar o diagrama de dispers˜ ao com gr´ afico da equa¸c˜ao ajustada. Temperatura (C◦ ) Comprimento (mm)

10 1003

15 1005

20 1010

25 1011

30 1014

2. Para o seguinte conjunto de valores de x e y obtenha a equa¸c˜ao de regress˜ao estimada. 106

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


˜ LINEAR E REGRESSAO ˜ LINEAR SIMPLES 11 CORRELAC ¸ AO

Estat´ıstica B´ asica

x y

2 10,3

4 18,2

6 25,1

8 35,6

10 43,0

12 50,0

14 59,1

16 67,8

18 75,2

20 85,0

3. Frutos de pepino s˜ ao utilizados para a produ¸c˜ao de pickles e estes s˜ao preservados em uma solu¸c˜ ao salina com 2 a 3% de s´ odio. Os dados abaixo mostram a redu¸c˜ao na firmeza (vari´avel Y medida em libras) de pickles estocados por um per´ıodo de 0 a 52 semanas (X) em solu¸c˜ao salina. Semanas (X) Firmeza (Y )

0 19,8

4 16,5

14 12,8

32 8,1

32 7,5

a) Fa¸ca o diagrama de dispers˜ ao. A disposi¸c˜ao dos dados apresenta um comportamento linear? A correla¸c˜ ao entre as vari´ aveis ´e positiva, negativa ou nula? b) Calcule o coeficiente de correla¸c˜ ao e interprete-o. c) Encontre a equa¸c˜ ao de regress˜ ao e apresente o gr´afico com os pontos observados e a reta encontrada. d) Calcule o coeficiente de determina¸c˜ ao e interprete-o. e) Calcule o valor dos erros para cada ponto e verifique se a soma deles ´e zero. 4. Dadas as situa¸c˜ oes abaixo que correspondem uma lista de situa¸c˜oes de pesquisa, indique para cada uma delas se o apropriado ´e proceder uma an´alise de regress˜ao ou uma de correla¸c˜ao. Justifique sua indica¸c˜ ao. a) O n´ıvel de HDL (colesterol) se relaciona com o n´ umero de horas de pr´atica de exerc´ıcios f´ısicos? b) Qual ´e a varia¸c˜ ao da demanda de certo produto em fun¸c˜ao de seu pre¸co de venda? c) O valor do aluguel est´ a associado ` a distˆ ancia da universidade? d) Qual ´e o valor do custo de produ¸c˜ ao de certo produto conforme o volume produzido?

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

107


Estat´ıstica B´ asica

12 Tabelas de distribui¸ c˜ oes de probabilidade te´ oricas

12

Tabelas de distribui¸ c˜ oes de probabilidade te´ oricas

Distribui¸ca˜o normal padronizada para P (Z > z)

z 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,5 4,0 5,0

108

TABELA 28 Probabilidades (α) da distribui¸c˜ao normal Segunda decimal de Z 0 1 2 3 4 5 6 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

Profs. Fl´ avio Bittencourt/Adriana Dias

padronizada 7 0,4721 0,4325 0,3936 0,3557 0,3192 0,2843 0,2514 0,2206 0,1922 0,1660 0,1423 0,1210 0,1020 0,0853 0,0708 0,0582 0,0475 0,0384 0,0307 0,0244 0,0192 0,0150 0,0116 0,0089 0,0068 0,0051 0,0038 0,0028 0,0021 0,0015 0,0011 0,0002 0,0000 0,0000

8 0,4681 0,4286 0,3897 0,3520 0,3156 0,2810 0,2483 0,2177 0,1894 0,1635 0,1401 0,1190 0,1003 0,0838 0,0694 0,0571 0,0465 0,0375 0,0301 0,0239 0,0188 0,0146 0,0113 0,0087 0,0066 0,0049 0,0037 0,0027 0,0020 0,0014 0,0010 0,0002 0,0000 0,0000

9 0,4641 0,4247 0,3859 0,3483 0,3121 0,2776 0,2451 0,2148 0,1867 0,1611 0,1379 0,1170 0,0985 0,0823 0,0681 0,0559 0,0455 0,0367 0,0294 0,0233 0,0183 0,0143 0,0110 0,0084 0,0064 0,0048 0,0036 0,0026 0,0019 0,0014 0,0010 0,0002 0,0000 0,0000

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

12 Tabelas de distribui¸ c˜ oes de probabilidade te´ oricas

Distribui¸ca˜o t de Student para P (T > t) = α

TABELA 29 Valores do quantil t segundo os graus de liberdade (gl) e probabilidades α ´ Area na cauda superior (α) gl 0,25 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005 1 1,000 3,078 6,314 12,71 31,82 63,66 127,3 318,3 636,6 2 0,816 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60 3 0,765 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92 4 0,741 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610 5 0,727 1,476 2,015 2,571 3,365 4,032 4,773 5,893 6,869 6 0,718 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959 7 0,711 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408 8 0,706 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041 9 0,703 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781 0,700 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587 10 11 0,697 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437 12 0,695 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318 13 0,694 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221 14 0,692 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140 15 0,691 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073 16 0,690 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015 17 0,689 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965 18 0,688 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922 19 0,688 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883 20 0,687 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850 21 0,686 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819 22 0,686 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792 23 0,685 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768 24 0,685 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745 25 0,684 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725 26 0,684 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707 27 0,684 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690 28 0,683 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674 29 0,683 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,659 30 0,683 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646 35 0,682 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3,591 40 0,681 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551 45 0,680 1,301 1,679 2,014 2,412 2,690 2,952 3,281 3,520 50 0,679 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

109


Estat´ıstica B´ asica

12 Tabelas de distribui¸ c˜ oes de probabilidade te´ oricas

Distribui¸ca˜o χ2 para P (χ2 > χ2c ) = α

TABELA 30 Valores do quantil χ2 segundo os graus de liberdade (gl) e probabilidades α ´ Area na cauda superior (α) gl 0,5 0,25 0,1 0,05 0,025 0,01 0,005 1 0,455 1,323 2,706 3,841 5,024 6,635 7,879 1,386 2,773 4,605 5,991 7,378 9,210 10,597 2 3 2,366 4,108 6,251 7,815 9,348 11,345 12,838 3,357 5,385 7,779 9,488 11,143 13,277 14,860 4 5 4,351 6,626 9,236 11,070 12,833 15,086 16,750 5,348 7,841 10,645 12,592 14,449 16,812 18,548 6 7 6,346 9,037 12,017 14,067 16,013 18,475 20,278 7,344 10,219 13,362 15,507 17,535 20,090 21,955 8 9 8,343 11,389 14,684 16,919 19,023 21,666 23,589 10 9,342 12,549 15,987 18,307 20,483 23,209 25,188 11 10,341 13,701 17,275 19,675 21,920 24,725 26,757 12 11,340 14,845 18,549 21,026 23,337 26,217 28,300 13 12,340 15,984 19,812 22,362 24,736 27,688 29,819 14 13,339 17,117 21,064 23,685 26,119 29,141 31,319 15 14,339 18,245 22,307 24,996 27,488 30,578 32,801 16 15,338 19,369 23,542 26,296 28,845 32,000 34,267 17 16,338 20,489 24,769 27,587 30,191 33,409 35,718 18 17,338 21,605 25,989 28,869 31,526 34,805 37,156 19 18,338 22,718 27,204 30,144 32,852 36,191 38,582 20 19,337 23,828 28,412 31,410 34,170 37,566 39,997 21 20,337 24,935 29,615 32,671 35,479 38,932 41,401 22 21,337 26,039 30,813 33,924 36,781 40,289 42,796 23 22,337 27,141 32,007 35,172 38,076 41,638 44,181 24 23,337 28,241 33,196 36,415 39,364 42,980 45,559 25 24,337 29,339 34,382 37,652 40,646 44,314 46,928 26 25,336 30,435 35,563 38,885 41,923 45,642 48,290 27 26,336 31,528 36,741 40,113 43,195 46,963 49,645 28 27,336 32,620 37,916 41,337 44,461 48,278 50,993 29 28,336 33,711 39,087 42,557 45,722 49,588 52,336 30 29,336 34,800 40,256 43,773 46,979 50,892 53,672 40 39,335 45,616 51,805 55,758 59,342 63,691 66,766 50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 60 59,335 66,981 74,397 79,082 83,298 88,379 91,952 120 119,334 130,055 140,233 146,567 152,211 158,950 163,648 240 239,334 254,392 268,471 277,138 284,802 293,888 300,182 480 479,334 500,519 520,111 532,075 542,599 555,006 563,561

110

Profs. Fl´ avio Bittencourt/Adriana Dias

UNIFAL-MG/Alfenas


Estat´ıstica B´ asica

12 Tabelas de distribui¸ c˜ oes de probabilidade te´ oricas

Distribui¸ca˜o F para P (F > Fc ) = 5%

TABELA 31 Valores do quantil F segundo os graus de liberdade do numerador (v1 ) e graus de liberdade do denominador (v2 ) e probabilidade 5% v1 v2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 120 240 480 960

1 161,448 18,513 10,128 7,709 6,608 5,987 5,591 5,318 5,117 4,965 4,844 4,747 4,667 4,600 4,543 4,494 4,451 4,414 4,381 4,351 4,325 4,301 4,279 4,260 4,242 4,225 4,210 4,196 4,183 4,171 4,085 4,034 4,001 3,920 3,880 3,861 3,851

2 199,500 19,000 9,552 6,944 5,786 5,143 4,737 4,459 4,256 4,103 3,982 3,885 3,806 3,739 3,682 3,634 3,592 3,555 3,522 3,493 3,467 3,443 3,422 3,403 3,385 3,369 3,354 3,340 3,328 3,316 3,232 3,183 3,150 3,072 3,033 3,015 3,005

UNIFAL-MG/Alfenas

3 215,707 19,164 9,277 6,591 5,409 4,757 4,347 4,066 3,863 3,708 3,587 3,490 3,411 3,344 3,287 3,239 3,197 3,160 3,127 3,098 3,072 3,049 3,028 3,009 2,991 2,975 2,960 2,947 2,934 2,922 2,839 2,790 2,758 2,680 2,642 2,623 2,614

4 224,583 19,247 9,117 6,388 5,192 4,534 4,120 3,838 3,633 3,478 3,357 3,259 3,179 3,112 3,056 3,007 2,965 2,928 2,895 2,866 2,840 2,817 2,796 2,776 2,759 2,743 2,728 2,714 2,701 2,690 2,606 2,557 2,525 2,447 2,409 2,391 2,381

5 230,162 19,296 9,013 6,256 5,050 4,387 3,972 3,687 3,482 3,326 3,204 3,106 3,025 2,958 2,901 2,852 2,810 2,773 2,740 2,711 2,685 2,661 2,640 2,621 2,603 2,587 2,572 2,558 2,545 2,534 2,449 2,400 2,368 2,290 2,252 2,233 2,223

6 233,986 19,330 8,941 6,163 4,950 4,284 3,866 3,581 3,374 3,217 3,095 2,996 2,915 2,848 2,790 2,741 2,699 2,661 2,628 2,599 2,573 2,549 2,528 2,508 2,490 2,474 2,459 2,445 2,432 2,421 2,336 2,286 2,254 2,175 2,136 2,117 2,108

7 236,768 19,353 8,887 6,094 4,876 4,207 3,787 3,500 3,293 3,135 3,012 2,913 2,832 2,764 2,707 2,657 2,614 2,577 2,544 2,514 2,488 2,464 2,442 2,423 2,405 2,388 2,373 2,359 2,346 2,334 2,249 2,199 2,167 2,087 2,048 2,029 2,019

Profs. Fl´ avio Bittencourt/Adriana Dias

8 238,883 19,371 8,845 6,041 4,818 4,147 3,726 3,438 3,230 3,072 2,948 2,849 2,767 2,699 2,641 2,591 2,548 2,510 2,477 2,447 2,420 2,397 2,375 2,355 2,337 2,321 2,305 2,291 2,278 2,266 2,180 2,130 2,097 2,016 1,977 1,958 1,948

9 240,543 19,385 8,812 5,999 4,772 4,099 3,677 3,388 3,179 3,020 2,896 2,796 2,714 2,646 2,588 2,538 2,494 2,456 2,423 2,393 2,366 2,342 2,320 2,300 2,282 2,265 2,250 2,236 2,223 2,211 2,124 2,073 2,040 1,959 1,919 1,899 1,890

10 241,882 19,396 8,786 5,964 4,735 4,060 3,637 3,347 3,137 2,978 2,854 2,753 2,671 2,602 2,544 2,494 2,450 2,412 2,378 2,348 2,321 2,297 2,275 2,255 2,236 2,220 2,204 2,190 2,177 2,165 2,077 2,026 1,993 1,910 1,870 1,850 1,841 Continua...

111


Estat´ıstica B´ asica

12 Tabelas de distribui¸ c˜ oes de probabilidade te´ oricas

... continua¸c˜ ao v1 v2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 120 240 480 960

112

11 242,983 19,405 8,763 5,936 4,704 4,027 3,603 3,313 3,102 2,943 2,818 2,717 2,635 2,565 2,507 2,456 2,413 2,374 2,340 2,310 2,283 2,259 2,236 2,216 2,198 2,181 2,166 2,151 2,138 2,126 2,038 1,986 1,952 1,869 1,829 1,809 1,799

12 243,906 19,413 8,745 5,912 4,678 4,000 3,575 3,284 3,073 2,913 2,788 2,687 2,604 2,534 2,475 2,425 2,381 2,342 2,308 2,278 2,250 2,226 2,204 2,183 2,165 2,148 2,132 2,118 2,104 2,092 2,003 1,952 1,917 1,834 1,793 1,772 1,762

13 244,690 19,419 8,729 5,891 4,655 3,976 3,550 3,259 3,048 2,887 2,761 2,660 2,577 2,507 2,448 2,397 2,353 2,314 2,280 2,250 2,222 2,198 2,175 2,155 2,136 2,119 2,103 2,089 2,075 2,063 1,974 1,921 1,887 1,803 1,761 1,741 1,730

14 245,364 19,424 8,715 5,873 4,636 3,956 3,529 3,237 3,025 2,865 2,739 2,637 2,554 2,484 2,424 2,373 2,329 2,290 2,256 2,225 2,197 2,173 2,150 2,130 2,111 2,094 2,078 2,064 2,050 2,037 1,948 1,895 1,860 1,775 1,733 1,712 1,702

15 245,950 19,429 8,703 5,858 4,619 3,938 3,511 3,218 3,006 2,845 2,719 2,617 2,533 2,463 2,403 2,352 2,308 2,269 2,234 2,203 2,176 2,151 2,128 2,108 2,089 2,072 2,056 2,041 2,027 2,015 1,924 1,871 1,836 1,750 1,708 1,687 1,677

20 248,013 19,446 8,660 5,803 4,558 3,874 3,445 3,150 2,936 2,774 2,646 2,544 2,459 2,388 2,328 2,276 2,230 2,191 2,155 2,124 2,096 2,071 2,048 2,027 2,007 1,990 1,974 1,959 1,945 1,932 1,839 1,784 1,748 1,659 1,614 1,592 1,581

30 250,095 19,462 8,617 5,746 4,496 3,808 3,376 3,079 2,864 2,700 2,570 2,466 2,380 2,308 2,247 2,194 2,148 2,107 2,071 2,039 2,010 1,984 1,961 1,939 1,919 1,901 1,884 1,869 1,854 1,841 1,744 1,687 1,649 1,554 1,507 1,483 1,471

Profs. Fl´ avio Bittencourt/Adriana Dias

40 251,143 19,471 8,594 5,717 4,464 3,774 3,340 3,043 2,826 2,661 2,531 2,426 2,339 2,266 2,204 2,151 2,104 2,063 2,026 1,994 1,965 1,938 1,914 1,892 1,872 1,853 1,836 1,820 1,806 1,792 1,693 1,634 1,594 1,495 1,445 1,420 1,407

60 252,196 19,479 8,572 5,688 4,431 3,740 3,304 3,005 2,787 2,621 2,490 2,384 2,297 2,223 2,160 2,106 2,058 2,017 1,980 1,946 1,916 1,889 1,865 1,842 1,822 1,803 1,785 1,769 1,754 1,740 1,637 1,576 1,534 1,429 1,375 1,347 1,332

120 253,253 19,487 8,549 5,658 4,398 3,705 3,267 2,967 2,748 2,580 2,448 2,341 2,252 2,178 2,114 2,059 2,011 1,968 1,930 1,896 1,866 1,838 1,813 1,790 1,768 1,749 1,731 1,714 1,698 1,683 1,577 1,511 1,467 1,352 1,290 1,256 1,239

UNIFAL-MG/Alfenas


ˆ ´ REFERENCIAS BIBLIOGRAFICAS [1] GONCALVES, ¸ M. E. Gerˆ encia de sa´ ude: estat´ıstica aplicada. Rio de Janeiro, RJ: Funda¸c˜ ao CECIERJ, 2010. 168 p. [2]

PAGANO, M.; GAUVREAU, K. Bioestat´ıstica. S˜ao Paulo, SP: Cengage Learning, 2012.

[3] BLAIR, R. C.; TAYLOR, R. A. Bioestat´ıstica para ciˆ encias da sa´ ude. S˜ao Paulo, SP: Pearson Education do Brasil, 2013. [4]

DEVORE, J. L. Estat´ıstica Aplicada. S˜ao Paulo, SP: Pearson Prentice Hall, 2010.

[5] LARSON, R.; FARBER, B. Probabilidade e Estat´ıstica. 4. ed. S˜ao Paulo, SP: Cengage Learning, 2012. [6] DANCEY, C. P.; REIDY, J. Estat´ıstica sem Matem´ atica para Psicologia: Usando SPSS para windows. 3. ed. Porto Alegre, RS: Artmed, 2006. 608 p.

UNIFAL-MG/Alfenas

Profs. Fl´ avio Bittencourt/Adriana Dias

113


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.