Associação Educacional Dom Bosco
-1-
ESTATÍSTICA E PROBABILIDADE
ESTATÍSTICA Uanderson Rebula de Oliveira br.linkedin.com/in/uandersonrebula/
http://lattes.cnpq.br/1039175956271626
Uanderson Rebula de Oliveira
Estatística
-2-
UANDERSON REBULA DE OLIVEIRA Mestrado em Engenharia de Produção-Universidade Estadual Paulista-UNESP Pós-graduado em Controladoria e Finanças-Universidade Federal de Lavras-UFLA Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC Técnico em Segurança do Trabalho-ETPC Operador Siderúrgico e Industrial-ETPC Pesquisador pelo ITL/SEST/SENAT. Professor na UNIFOA no curso de Pós graduação em Engenharia de Segurança do Trabalho. Professor da Universidade Estácio de Sá - UNESA nas disciplinas de Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística para o curso de Engenharia de Produção, Análise Estatística para o curso de Administração, Ergonomia, Higiene e Segurança do Trabalho, Gestão de Segurança e Análise de Processos Industriais (Gestão Ambiental), Gestão da Qualidade: programa 5S (curso de férias). Professor na Associação Educacional Dom Bosco para os cursos de Administração e Logística. Ex-professor na Universidade Barra Mansa – UBM nos cursos de Engenharia de Produção e de Petróleo. Ex-professor Conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Exprofessor em escolas técnicas nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI. Ex-consultor interno, desenvolvedor e instrutor de cursos corporativos na CSN, a níveis Estratégicos, Táticos e Operacionais. Ex-Membro do IBS–Instituto Brasileiro de Siderurgia.
ESTATÍSTICA
EMENTA: Estatística descritiva: conceito e fases de estudo. Variáveis. População e amostra. Séries estatísticas: conceitos, tabelas, distribuição de frequência e representação gráfica. Medidas de Tendência Central. Medidas de Ordenamento. Medidas de Variação. Medidas de Assimetria e Curtose. Correlação e Regressão Linear Simples.
OBJETIVO: Refletir a partir da Estatística Básica sobre as ferramentas consolidadas pelo uso e pela ciência, disponíveis a todos, que auxiliam na tomada de decisão.
Resende - RJ – 2017
Uanderson Rebula de Oliveira
Estatística
-3-
APRESENTAÇÃO DA DISCIPLINA Uma das ferramentas mais utilizadas hoje em dia pelos cientistas, analistas financeiros, médicos, engenheiros, jornalistas etc. é a Estatística, que descreve os dados observados e desenvolve a metodologia para a tomada de decisão em presença da incerteza. O verbete estatística foi introduzido no século XVIII, tendo origem na palavra latina status (Estado), e serviu inicialmente a objetivos ligados à organização político-social, como o fornecimento de dados ao sistema de poder vigente. Hoje em dia, os modelos de aplicação da Teoria Estatística se estendem por todas as áreas do conhecimento, como testes educacionais, pesquisas eleitorais, análise de riscos ambientais, finanças, controle de qualidade, análises clínicas, índices de desenvolvimento, modelagem de fenômenos atmosféricos etc. Podemos informalmente dizer que a Teoria Estatística é uma ferramenta que ajuda a tomar decisões com base na evidência disponível, decisões essas afetadas por margens de erro, calculadas através de modelos de probabilidade. No entanto, a probabilidade se desenvolveu muito antes de ser usada em aplicações da Teoria Estatística. Um dos marcos consagrados na literatura probabilística foi a correspondência entre B. Pascal (1623-1662) e P. Fermat (16011665), onde o tema era a probabilidade de ganhar em um jogo com dois jogadores, sob determinadas condições. Isso mostra que o desenvolvimento da teoria de probabilidades começou com uma paixão humana, que são os jogos de azar, mas evoluiu para uma área fortemente teórica, em uma perspectiva de modelar a incerteza, derivando probabilidades a partir de modelos matemáticos. A análise combinatória deve grande parte de seu desenvolvimento à necessidade de resolver problemas probabilísticos ligados à contagem, mas hoje há diversas áreas em que seus resultados são fundamentais para o desenvolvimento de teorias, como, por exemplo, a área de sistemas de informação. Nesta apostila encontraremos as definições de Estatística, vocabulário básico, população e amostra, séries estatísticas, medidas estatísticas. Correlação e regressão entre outros temas importantes.
Uanderson Rebula de Oliveira
Estatística
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
-5-
Sumário 1 – CONCEITOS PRELIMINARES 1.1 CONCEITO E IMPORTÂNCIA DA ESTATÍSTICA, 7 1.2 FASES DO ESTUDO ESTATÍSTICO, 12 1.3 VOCABULÁRIO BÁSICO DE ESTATÍSTICA, 13 1.4 POPULAÇÃO E AMOSTRA, 15 1.5 ESTATÍSTICA DESCRITIVA E INFERENCIAL , 17
2 – SÉRIES ESTATÍSTICAS 2.1 CONCEITOS E TIPOS DE SÉRIES ESTATÍSTICAS, 19 Tabelas, 19 Gráficos, 20
2.2 DISTRIBUIÇÃO DE FREQUÊNCIA, 23 Frequência absoluta e histograma, 23 Frequência relativa, absoluta acumulada e relativa acumulada, 24 Agrupamento em classes, 25 Polígono de frequência e ogiva, 26
3 – MEDIDAS RESUMO 3.1 MEDIDAS DE POSIÇÃO, 28 MÉDIA, 28 Média simples e Média ponderada, 28 Média de distribuição de frequência, 29 MEDIANA, 30 MODA, 31 RELAÇÃO ENTRE MÉDIA, MEDIANA E MODA, 33
3.2 MEDIDAS DE ORDENAMENTO (OU SEPARATRIZES), 34 Quartil, 34 Decil e Percentil, 35
3.3 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO), 36 Introdução, 36 Variância e Desvio Padrão, 37 Coeficiente de Variação, 39 Desvio padrão de Distribuição de frequência, 39
3.4 MEDIDAS DE ASSIMETRIA E CURTOSE, 41 Assimetria e coeficiente de assimetria, 41 Curtose e coeficiente de curtose, 42
4 – CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES CORRELAÇÃO LINEAR SIMPLES, 44 REGRESSÃO LINEAR SIMPLES, 47
REFERÊNCIAS BIBLIOGRÁFICAS, 49 ANEXO I – LIVROS RECOMENDADOS, 50 ANEXO II – Software BIOESTAT , 51 ANEXO I II– Estatística no Excel, 52
Uanderson Rebula de Oliveira
Estatística
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
-6-
1 CONCEITOS PRELIMINARES
Uanderson Rebula de Oliveira
EstatÃstica
-71.1 CONCEITO E IMPORTÂNCIA DA ESTATÍSTICA ESTATÍSTICA NA PRÁTICA Analise as informações abaixo para melhor compreensão do conceito de Estatística.
ACIDENTES DO TRABALHO NO BRASIL – 1970 a 2005 Conceito de Acidente: Lesão corporal ou doença, relacionada com o exercício do trabalho. (Lei 8.213/91 – art. 19 a 21) INSS: Órgão público responsável pela coleta, organização e representação dos dados.
Coleta: Por meio de um formulário eletrônico denominado “CAT – Comunicação de Acidente do Trabalho”, enviado pelas empresas quando da ocorrência, conforme determina o art. 22 da Lei 8.213/91. Organização: Através de um grande banco de dados do INSS. Representação: Através de um documento denominado “Anuário Estatístico de Acidentes do Trabalho”, contendo tabelas, gráficos e diversas análises. Disponível no site www.previdencia.gov.br, na seção “Estatística”.
Motivo: Quando o trabalhador se afasta por motivo de acidente, o INSS concede benefícios acidentários, como auxílio doença acidentário, auxílio acidente, aposentadoria por invalidez, pensão por morte, reabilitação entre outros.
COMPILAÇÃO E ANÁLISE DE DADOS (INFORMAÇÕES) sobre acidentes do trabalho, de 1970 a 2005: 35.000.000
33.238.617 31.407.576 29.544.927 28.683.913 27.189.614 26.228.629 24.491.635 23.667.24123.830.312
Evolução da QUANTIDADE de TRABALHADORES no Brasil - 1970 a 2005.
30.000.000
23.661.57923.198.656 22.163.827 22.272.843
25.000.000
19.476.36219.673.915 18.686.355 16.638.799 14.945.489
20.000.000 15.000.000
10.000.000
11.537.024 8.148.987 7.284.022
5.000.000 0
1970 1972 1974 1976 1978 1980 FONTE: Revista Proteção
1982 1984 1986
1988 1990
1992 1994
1996 1998
2000 2001 2002
2003 2004
2005
Anos
Observa‐se ao longo dos anos o aumento gradativo da quantidade de trabalhadores no Brasil, de 7.284.022 chegando a 33.238.617, reflexo do crescimento econômico do País. Essas informações (dados) são importantes para fins de comparação com a evolução da quantidade de acidentes do trabalho no mesmo período, como segue abaixo: 1.796.671 1.743.825
2.000.000 1.750.000
Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005.
Aprovação das NR’s
1.551.461 1.464.211
1.504.723
1.500.000 1.220.111
1.178.472
1.250.000
1.207.859 991.581
961.575
1.000.000 693.572
750.000
532.514 388.304 395.455414.341 363.868
500.000
465.700 491.711 393.071 399.077 340.251
250.000 0 1970
1972
1974
1976
1978
FONTE: Revista Proteção
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2001
2002
2003
2004
2005
Anos
No período de 1970 a 1976 a quantidade de acidentes foi alta, comparando‐se com a pequena quantidade de trabalhadores no mesmo período. Somente a partir de 1978 os acidentes começaram a reduzir, em razão da aprovação das Normas Regulamentadoras – NR’s (disponível no www.mte.gov.br), tornando‐se de aplicação obrigatória em todo o País. Esta redução pode ser vista como positiva, entretanto, não podemos comemorar esses números, pois a quantidade de acidentes ainda é alarmante e está praticamente estagnada, desde 1994.
Uanderson Rebula de Oliveira
Estatística
-8E as regiões? Como esses acidentes estão distribuídos nas regiões do país? Qual a pior região? Vejamos abaixo em um Cartograma (mapa com dados), REFERENTE AO ANO DE 2005 (491.711 acidentes): Distribuição da quantidade e porcentagem de acidentes de trabalho no Brasil por Regiões, correlacionados com o Produto Interno Bruto ‐ PIB ‐ ano 2005. NORTE • Acidentes: 19.117 (4% do total) • PIB: 5% de participação
NORDESTE • Acidentes: 49.010 (10% do total) • PIB: 13,1% de participação
CENTRO‐OESTE • Acidentes: 31.470 (6% do total) • PIB: 8,9% de participação
SUDESTE • Acidentes: 279.689 (57% do total) • PIB: 56,5% de participação SUL
Espírito Santo ‐ 11.039 acidentes Minas Gerais ‐ 52.335 acidentes Rio de Janeiro ‐ 34.610 acidentes São Paulo ‐ 181.705 acidentes
• Acidentes: 112.425 (23% do total) • PIB: 16,6% de participação
É campeão de acidentes no Brasil, participando com 181.705, o que corresponde a 37% do total; por conseguinte o seu PIB também é o maior do País, com 33,9% de participação.
FONTE: Adaptado da Revista Proteção e do IBGE (www.ibge.gov.br)
Observa‐se que a região em 1° lugar em número de acidentes é a Sudeste, em 2° está a região Sul, em 3° a região Nordeste, em 4° a região Centro‐Oeste e por último a Norte. Ao analisarmos este gráfico podemos tomar diversas conclusões, porém, tais conclusões somente são possíveis através de um estudo, o que demanda tempo. Todavia, observa‐se que a quantidade de acidentes acompanha a porcentagem da participação do PIB da região. Esta correlação pode ser resultado do reflexo da economia da região. Ora, a região Sudeste, por exemplo, corresponde a 56,5% do PIB do País. Logicamente esta região possui um maior número de empresas e, consequentemente, maior número de mão‐de‐obra e atividades produtivas, fato que pode justificar a enorme quantidade de acidentes comparada com as demais regiões. Esses dados também podem estar relacionados com as políticas dos estados e das empresas, a atuação das fiscalizações do Ministério do Trabalho, as culturas das regiões, os investimentos empresariais, a capacitação de mão de obra (treinamentos) entre outros fatores. Entende‐se por Produto Interno Bruto (PIB) a soma, em valores monetários, de todos os bens e serviços finais produzidos em uma determinada região.
Tradicionalmente, no Brasil, as políticas de desenvolvimento têm se restringido aos aspectos econômicos e vêm sendo traçadas de maneira paralela ou pouco articuladas com as políticas sociais, cabendo a estas últimas arcarem com os ônus dos possíveis danos gerados sobre a saúde da população, dos trabalhadores em particular e a degradação ambiental. Para que o Estado cumpra seu papel para a garantia desses direitos, é mister a formulação e implementação de políticas e ações de governo.
POSSÍVEIS SOLUÇÕES PARA REDUZIR OS ACIDENTES A partir da análise dos dados podemos concluir que a política de segurança do trabalho adotada no País está estagnada. A simples aplicação da norma regulamentadora não está sendo suficiente para reduzir o índice de acidentes. Os dados nos mostram que não haverá mudanças significativas se não forem feitas alterações nessa política. Para contornar a situação, os Ministérios do Trabalho, da Saúde e da Previdência Social publicaram, para consulta pública, em 29.12.2004 a PNSST ‐ POLÍTICA NACIONAL DE SEGURANÇA E SAÚDE DO TRABALHADOR, com a finalidade de promover a melhoria da qualidade de vida e da saúde do trabalhador. Os Ministérios reconheceram a deficiência da segurança do trabalho no país, carecendo de mecanismos que:
Incentivem medidas de prevenção; Responsabilizem os empregadores; Propiciem o efetivo reconhecimento dos direitos do trabalhador; Diminuam a existência de conflitos institucionais; Tarifem de maneira mais adequada as empresas e Possibilite um melhor gerenciamento dos fatores de riscos ocupacionais.
Uanderson Rebula de Oliveira
Estatística
-9Face ao exposto, a PNSST propõe, dentre outras, as seguintes ações a serem desenvolvidas pelos três Ministérios:
Área
Ações
Tributos1, financiamentos e licitações.
Educação e pesquisa
Ambientes nocivos Coleta de dados
Estabelecer política tributária que privilegie empresas com menores índices de acidentes e que invistam na melhoria das condições de trabalho; Criar linhas de financiamento para a melhoria das condições de trabalho, incluindo máquinas e equipamentos, em especial para as pequenas e médias empresas; Incluir requisitos de SST para concessão de financiamentos públicos e privados; Incluir requisitos de SST nos processos de licitação dos órgãos públicos; Instituir a obrigatoriedade de publicação de balanço de SST para as empresas, a exemplo do que já ocorre com os dados contábeis; Incluir conhecimentos básicos em SST no currículo do ensino fundamental e médio; Incluir disciplinas em SST no currículo de ensino superior, em especial nas carreiras de profissionais de saúde, engenharia e administração; Estimular a produção de estudos e pesquisas na área de interesse desta Política; Articular instituições de pesquisa e universidades para a execução de estudos e pesquisas em SST, integrando uma rede de colaboradores para o desenvolvimento técnico ‐ cientifico na área; Desenvolver um amplo programa de capacitação dos profissionais, para o desenvolvimento das ações em segurança e saúde do trabalhador; Eliminar as políticas de monetarização dos riscos (adicionais de riscos). Outras ações Compatibilizar os instrumentos de coleta de dados e fluxos de informações. Incluir nos Sistemas e Bancos de Dados as informações contidas nos relatórios de intervenções e análises dos ambientes de trabalho, elaborados pelos órgãos de governo envolvidos nesta Política.
CONSIDERAÇÕES FINAIS SOBRE O ESTUDO DE ACIDENTES. O que acabamos de ver é um estudo estatístico. Como vimos, os dados sobre acidentes do trabalho no Brasil são controladas pelo INSS. A comunicação de acidentes permite ao INSS estimar e acompanhar o real impacto do trabalho sobre a saúde e a segurança da população brasileira. O INSS coleta, organiza, apresenta e publica as estatísticas de acidentes do trabalho no Brasil. Conforme observado, quando ocorre um acidente, a empresa, por força de lei, é obrigada a enviar a CAT ao INSS, alimentando, assim, o seu grande banco de dados. É importante ressaltar que os dados de acidentes de trabalho não se constituem, tão somente, num importante registro histórico, mas sim numa ferramenta inestimável para os profissionais que desempenham atividades nas áreas de saúde e segurança do trabalhador, assim como pesquisadores e demais pessoas interessadas no tema. A análise desses dados possibilita a construção de um diagnóstico mais preciso acerca da epidemiologia dos acidentes, propiciando, assim, a elaboração de políticas mais eficazes para as áreas relacionadas com o tema.
TÓPICO PARA REFLEXÃO Acidente do Trabalho: o problema do Brasil. Os acidentes de trabalho afetam a produtividade econômica, são responsáveis por um impacto substancial sobre o sistema de proteção social e influenciam o nível de satisfação do trabalhador e o bem estar geral da população. Estima‐se que a ausência de segurança nos ambientes de trabalho no Brasil tenha gerado, no ano de 2003, um custo de cerca de R$32,8 bilhões para o país. Deste total, R$ 8,2 bilhões correspondem a gastos com benefícios acidentários e aposentadorias especiais, equivalente a 30% da necessidade de financiamento do Regime Geral de Previdência Social ‐ RGPS verificado em 2003, que foi de R$ 27 bilhões. O restante da despesa corresponde à assistência à saúde do acidentado, indenizações, retreinamento, reinserção no mercado de trabalho e horas de trabalho perdidas. Isso sem levar em consideração o sub‐dimensionamento na apuração das contas da Previdência Social, que desembolsa e contabiliza como despesas não acidentárias os benefícios por incapacidade, cujas CAT não foram emitidas. Ou seja, sob a categoria do auxílio doença não ocupacional, encontra‐se encoberto um grande contingente de acidentes que não compõem as contas acidentárias. Parte deste “custo segurança no trabalho” afeta negativamente a competitividade das empresas, pois ele aumenta o preço da mão‐de‐obra, o que se reflete no preço dos produtos. Por outro lado, o incremento das despesas públicas com previdência, reabilitação profissional e saúde reduz a disponibilidade de recursos orçamentários para outras áreas ou induz o aumento da carga tributária sobre a sociedade. De outro lado, algumas empresas afastam trabalhadores, e muitas vezes os despedem logo após a concessão do beneficio. Com isso, o trabalhador se afasta, já sendo portador de doença crônica contraída no labor, e o desemprego poderá se prolongar na medida em que, para obter o novo emprego, será necessária a realização do exame admissional, no qual serão eleitos apenas aqueles considerados como “aptos” e, portanto, não portadores de enfermidades. Fonte: RESOLUÇÃO CNPS Nº 1.269, DE 15 DE FEVEREIRO DE 2006
_________________ 1. Tributo: Impostos; taxas e contribuições de melhoria, devida ao poder público.
Uanderson Rebula de Oliveira
Estatística
- 10 CONCEITO DE ESTATÍSTICA É A CIÊNCIA QUE SE DEDICA EM COLETAR, ORGANIZAR, APRESENTAR, ANALISAR E INTERPRETAR DADOS (INFORMAÇÕES) PARA TOMADA DE DECISÃO.
Estatística é a ciência dos dados. A Estatística lida com a coleta, o processamento e disposição de dados (informações), atuando como ferramenta crucial nos processos de soluções de problemas. A Estatística facilita o estabelecimento de conclusões confiáveis sobre algum fenômeno que esteja sendo estudado (WERKEMA, 1995).
É por meio da análise e interpretação dos dados estatísticos que é possível o conhecimento de uma realidade, de seus problemas, bem como, a formulação de soluções apropriadas por meio de um planejamento objetivo da ação, para além dos “achismos” e “casuismos” comuns.
No uso diário o termo “estatística” refere‐se a fatos numéricos. Tenha em mente, entretanto, que estatística é bem diferente de matemática. Estatística é, antes de qualquer coisa, um método científico que determina questões de pesquisa; projeta estudos e experimentos; coleta, organiza, resume e analisa dados; interpreta resultados e esboça conclusões. Ou seja, utiliza‐se dados como evidências para responder a interessantes questões sobre o mundo. A matemática só é utilizada para calcular a estatística e realizar algumas das análises, mais isso é apenas uma pequena parte do que realmente é a estatística. Portanto, a estatística mantém com a matemática uma relação de dependência, solicitando‐lhe auxílio, sem o qual não poderia desenvolver‐se.
A Estatística é uma ciência interdisciplinar, ou seja, é comum a duas ou mais disciplinas ou ramos de conhecimento. Assim, a Estatística é aplicada na Medicina, Administração, Engenharias, Economia, Contabilidade, Direito, Segurança do Trabalho, Qualidade, Marketing entre outras áreas. Veja abaixo.
Medicina. Estudos de epidemiologia, *Engenharia de Produção. Estudos de Segurança do Trabalho. Estudos de inter‐relações dos determinantes da freqüência e distribuição de doenças populacionais Contabilidade. Estudos das informações financeiras das empresas públicas e privadas.
um conjunto de dados de todas as acidentes e doenças, suas causas, fases de um processo produtivo. quantidade, parte atingida, setores, % de afastamentos etc. Finanças. Estudos de uma série de Economia. Estudos de taxas de informações estatísticas para orientar inflação, índice de preços, taxa de investimentos. desemprego, futuro da economia.
*Engenharia de Produção – A aplicação da Estatística na produção merece especial atenção. A atual ênfase na qualidade torna o controle da qualidade uma importante aplicação da estatística na área da produção. Usa‐se uma série de mapas estatísticos de controle de qualidade para monitorar o resultado (output) de um processo de produção. Suponha, por exemplo, que uma máquina preencha recipientes com 2 litros de determinado refrigerante. Periodicamente, um operador do setor de produção seleciona uma quantidade de recipientes e verifica a exatidão, ou seja, se não há desvios. A Estatística também é usada na Engenharia de Produção para Estratificação, que consiste no agrupamento da informação (dados) sob vários pontos de vista, de modo a focalizar a ação, considerando os fatores equipamento, tempo entre outros. Exemplo:
Roupas danificadas em uma lavanderia
Uanderson Rebula de Oliveira
Tipo de dano: Tipo de roupa:
Operador: Marca do sabão:
Máquina de lavar: Máquina de secar:
Estatística
- 11 UM POUCO DE HISTÓRIA E ATUALIDADE O termo “Estatística” provém da palavra “Estado” e foi utilizado originalmente para denominar levantamentos de dados (riquezas, impostos, nascimentos, mortalidade, batizados, casamentos, habitantes etc.), cuja finalidade era orientar o Estado em suas decisões. Segundo Costa (2005, p. 5) em 1085, Guilherme “O Conquistador”, ordenou que se fizesse um levantamento na Inglaterra, que deveria incluir informações sobre terras, proprietários, uso da terra, empregados, animais e serviria, também, de base para cálculo de impostos. Tal levantamento originou um volume intitulado “domesday book”. No século XVIII o estudo dos dados foi adquirindo, aos poucos, feição verdadeiramente científica. A palavra Estatística apareceu pela primeira vez no século XVIII e foi sugerida pelo alemão Godofredo Achenwall (1719‐ 1772), onde determinou o seu objetivo e suas relações com as ciências. Desde essa época, a Estatística deixou de ser a simples catalogação de dados numéricos coletivos e se tornou o estudo de como chegar a conclusões sobre o todo, partindo da observação e análise de partes desse todo. Essa é sua maior riqueza.
Atualmente a sociedade está completamente tomada pelos números. Eles aparecem em todos os lugares para onde você olha, de outdoors mostrando as últimas estatísticas sobre aborto, passando pelos programas de esporte que discutem as chances de um time de futebol chegar à final do campeonato, até o noticiário da noite, com reportagens focadas no índice de criminalidade, na expectativa de vida de uma pessoa que não come alimentos saudáveis e no índice de aprovação do presidente. Em um dia comum, você pode se deparar com cinco, dez ou, até mesmo, vinte diferentes estatísticas (ou até muito mais em um dia de eleição). Se você ler todo o jornal de domingo, irá se deparar com centenas de estatísticas em reportagens, propagandas e artigos sobre todo tipo de assunto: desde sopa (quanto em média uma pessoa consome por ano?) até castanhas (quantas castanhas você precisa comer para aumentar seu QI?). Nas empresas a Estatística desempenha um papel cada vez mais importante para os Gerentes. Esses responsáveis pela tomada de decisão utilizam a estatística para: Apresentar e descrever apropriadamente dados e informações sobre a empresa; Tirar conclusões sobre grandes populações, utilizando informações coletadas a partir de amostras; Realizar suposições confiáveis sobre a atividade da empresa; Melhorar os processos da empresa. A estatística é um instrumento eficiente para a compreensão e interpretação da realidade e não deve ser subestimada. Realmente existem pesquisas feitas de forma incorreta e que, por isso, não são confiáveis. Mas, em geral, quando um estudo estatístico é feito com critério, seus resultados permitem obter conclusões e prever tendências sobre fatos e fenômenos. Um estudo bem feito não elimina o erro, mas limita‐o a uma margem, procurando torná‐la o menor possível.
Uanderson Rebula de Oliveira
Estatística
- 12 1.2 FASES DO ESTUDO ESTATÍSTICO Um estudo estatístico confiável depende do planejamento e da correta execução das seguintes etapas:
1. Definir o que será estudado e a natureza dos dados, como exemplo: ESTUDO
NATUREZA DOS DADOS
Acidentes do Trabalho no Brasil
Quantidade e período Por regiões, estados ou municípios Por atividade econômica Por idade dos acidentados Por parte do corpo atingida Por causas dos acidentes etc.
Peças danificadas na linha A
Tipo de peça | Tipo de defeito Quantidade Período e Turnos Máquinas e Operadores Matéria prima etc.
Defina com clareza os objetivos da pesquisa, ou seja, o que se pretende apurar, que tipo de problema buscará detectar.
2. Coletar dados Após definir o que será estudado e o estabelecimento do planejamento do trabalho (forma de coleta dos dados, cronograma das atividades, custos envolvidos, levantamento das informações disponíveis), o passo seguinte é o da coleta de dados, que consiste na busca ou compilação dos dados, componentes do fenômeno a ser estudado. Nessa etapa recolhem‐se os dados tendo o cuidado de controlar a qualidade da informação. O sucesso de uma pesquisa depende muito da qualidade dos dados recolhidos. Podem ser por meio
de Criação de Softwares, a exemplo da CAT; Uso de Softwares da empresa; Dados históricos da empresa (físicos); Pesquisas com questionários etc. 3. Organizar e contar dados À procura de falhas e imperfeições, os dados devem ser cuidadosamente organizados e contados, a fim de não incorrermos em erros grosseiros que possam influenciar nos resultados. No exemplo da “Estatística na prática”, após a coleta da quantidade de acidentes por meio da CAT, organiza‐os por período, regiões etc. Da mesma maneira, se você usa um questionário para coletar dados na empresa, organiza‐os da forma necessária à pesquisa, além da contagem a ser feita.
4. Apresentação de dados 2.000 .000
Os dados devem ser apresentados sob a forma de tabelas ou gráficos, a fim de tornar mais fácil e rápido o exame daquilo que está sendo estudado.
1.796.671
1.750 .000
Aprovação das NR’s
1.743.825
Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005.
1.551.461 1.464.211
1.504. 723
1.500 .000 1.220. 111
1.178. 472
1. 207.859
1.250 .000
991.581
961. 575
1.000 .000 693. 572
750 .000
532.514 388.304 395. 455
500 .000
414.341
363. 868
340.251
393.071 399.077
465.700 491.711
250 .000 0 1970
1972
1974
19 76
1978
19 80
FONTE: Revista Proteção
1982
1 984
1986
1 988
1990
1992
Anos
1994
1996
199 8
2000
20 01
2002
20 03
2004
2 005
5. Análise dos dados e tomada de decisão Chegamos à fase mais complexa do processo estatístico, que consiste na análise dos dados. Por fim, a partir da análise realizada, poderemos chegar a uma tomada de decisão. Observe o estudo “Estatística na prática”. O que resultou a análise dos acidentes no Brasil, no período de 1970 a 2005? Veja que os Ministérios do Trabalho, Previdência Social e da Saúde se mobilizaram para resolverem essa questão de saúde pública, com diversas ações a serem implementadas no país. A partir dessa discussão, fica claro que um profissional com conhecimentos de Estatística terá maior facilidade em identificar um problema em sua área de atuação, determinar os tipos de dados que irão contribuir para sua análise, coletar esses dados e a seguir estabelecer conclusões e determinar um plano de ação para a solução do problema detectado.
Uanderson Rebula de Oliveira
Estatística
- 13 1.3 VOCABULÁRIO BÁSICO DE ESTATÍSTICA O vocabulário utilizado em estudos estatísticos teve sua origem nos primeiros estudos feitos pela humanidade e que eram relativos à demografia (estudo estatístico das populações). Por isso a Estatística emprega termos próprios dessa área de conhecimento, mas com um sentido diferenciado. Assim, para dar prosseguimento, é de extrema importância destacar alguns termos utilizados no jargão estatístico.
VARIÁVEL – É o termo usado para aquilo que você está pesquisando, estudando, analisando. ,
No estudo representado no gráfico abaixo a variável é o acidente do trabalho. Utilizada como um adjetivo do vocabulário do dia‐a‐dia, variável sugere que alguma coisa se modifica ou varia. 1.796.671 1.743.825
2.000.000 1.750.000
Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005.
1.551.461 1.464.211
1.504.723
1.500.000 1.220.111
1.178.472
1.250.000
1.207.859
VARIÁVEL 991.581
961.575
1.000.000 693.572
750.000
532.514 388.304 395.455414.341 363.868
500.000
465.700 491.711 393.071 399.077 340.251
250.000 0 1970
1972
1974
1976
1978
FONTE: Revista Proteção
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2001
2002
2003
2004
2005
Anos
São exemplos de Variáveis Doenças, Sexo, Estaturas, Peso, Idade, Renda, Natalidade, Mortalidade, PIB, Inflação, Exportações brasileiras, Produção de café, Alimentação, Peças produzidas por hora, Paradas de produção no mês, Rotatividade de estoque por ano, Poluição, Clima na região sudeste, Consumo de energia no mês, Vendas mensais de uma empresa, Produção diária de automóveis etc.
EXEMPLO DE APLICAÇÃO: A associação dos moradores de um bairro queria traçar um perfil dos frequentadores de um parque ali situado. Uma equipe de pesquisa elaborou questões a fim de reunir as informações procuradas. Numa manhã de quarta‐ feira, 6 pessoas foram entrevistadas e cada uma respondeu a questões para identificar idade, número de vezes que freqüenta o parque por semana, estado civil, meio de transporte utilizado para chegar ao parque, tempo de permanência no parque e renda familiar mensal. Os resultados são mostrados na tabela a seguir: Variáveis
Cada um dos aspectos investigados — os quais permitirão fazer a análise desejada — é denominado variável.
Uanderson Rebula de Oliveira
Estatística
- 14 TIPOS DE VARIÁVEIS Há, pois, uma divisão principal para as variáveis estatísticas, que consiste em considerá‐las como Variáveis Quantitativas (discretas ou contínuas) e Variáveis Qualitativas (nominal ou ordinal). Esta divisão é de facílima compreensão! Inteiros
DISCRETA Números
Quando as variáveis forem em números inteiros, obtido por contagem: 0 1 2 3 4 55 77 987 etc.
Ex.: Idade (anos), gols de futebol, etc
QUANTITATIVA Não inteiros
CONTÍNUA
Quando as variáveis forem em números não inteiros, assumem qualquer valor: 0,2 1,12 3,77 4,768 etc.
Ex.: Altura (cm), peso (kg), tempo (hh:mm) VARIÁVEL Ordenável
ORDINAL Nomes
Quando é possível ordenas as categorias. Pesquisa de alimentação: [1] Ótimo [2] Bom [3] Regular [4] ruim Grau de instrução de funcionários de uma empresa 1º grau 2º grau Superior Mestrado Doutorado
QUALITATIVA Não é ordenável
NOMINAL
Quando não é possível ordenar as categorias. Ex.: sexo (masculino ou feminino), Cor dos olhos (preto ou verde), campo de estudo (Engenharia, Direito etc) Não é possível estabelecer uma ordem, uma gradação, o mais ou menos importante, prioritário etc.
Então, os tipos de Variáveis da pesquisa do parque serão: Qualitativa nominal
Quantitativa discreta
Quantitativa contínua
PARA LEITURA Se a dúvida persiste, você pode observar no quadro abaixo mais esclarecimentos sobre esses conceitos. Resposta fornecida à pesquisa
Tipo de VARIÁVEL Quantitativa (Em números)
Discreta (números inteiros) (contagem)
Contínua (Números não inteiros) (medição) Qualitativa (nomes, atributos)
Será Quantitativa a variável para a qual se possa atribuir um valor numérico. Se a resposta fornecida à pesquisa estiver expressa por um número, então a variável é quantitativa. Por exemplo: quantos livros você lê por ano? A resposta é um número? Então, variável quantitativa. Quantas pessoas moram em sua casa? A resposta é um número? Então, novamente, variável quantitativa. No caso do estudo “ACIDENTE DO TRABALHO, é uma variável quantitativa, pois estudamos a quantidade de acidentes no período de 1970 a 2005 Variável Quantitativa Discreta é a variável quantitativa que assume somente números inteiros. Resulta, geralmente, de contagem. Esta variável não pode assumir qualquer valor, dentro de um intervalo de valores de resultados possíveis. Por exemplo, se eu pergunto quantos irmãos você tem, a resposta jamais poderia ser “tenho 3,75 irmãos”, ou “tenho 4,8 irmãos”, ou seja, a resposta não poderia assumir todos os valores de um intervalo! Este acima é o conceito formal de variável discreta! O conceito para memorizar é o seguinte: aquela variável obtida por meio de uma contagem. Em outras palavras: a variável discreta você conta!. Exemplos: quantas pessoas moram na sua casa? Quantos livros você tem? Quantos carros você tem? Se, para responder à pergunta, você faz uma contagem, então está diante de uma variável quantitativa discreta. Variável Quantitativa Contínua é aquela que pode assumir qualquer valor dentro de um intervalo de resultados possíveis. Se eu pergunto quantos quilos você pesa, a resposta pode ser 65,35kg. Se eu pergunto qual a temperatura na cidade hoje, a resposta pode ser 27,35°C. Para facilitar a memorização, basta lembrar que a variável quantitativa contínua pode ser obtida por uma medição, ou seja, a variável contínua você mede! Exemplos: peso, altura, duração de tempo para resolução de uma prova, pressão, temperatura etc. Se a pergunta é “qual a sua cor preferida?”, logicamente a resposta não será um número, daí estaremos tratando de uma variável qualitativa, ou seja, aquela para a qual não se atribui um valor numérico. Exemplos: Sexo: masculino ou feminino
Uanderson Rebula de Oliveira
Estatística
- 15 1.4 POPULAÇÃO E AMOSTRA Quando você quer saber se a sopa ficou boa, o que você faz? Mexe a panela, retira um pouco com uma colher e prova. Depois tira uma conclusão sobre todo o conteúdo da panela sem, na verdade, ter provado tudo. Portanto, é possível ter uma idéia de como a sopa está sem ter que comer tudo. Isso é o que se faz em estatística. A estatística deixou de ser a simples catalogação de dados numéricos e se tornou o estudo de como chegar a conclusões sobre o todo (população), partindo da observação e análise de partes desse todo (amostra). Essa é sua maior riqueza. Assim, podemos conceituar população e amostra como:
POPULAÇÃO É UM CONJUNTO DE TODOS OS ELEMENTOS EM ESTUDO. AMOSTRA É UMA PARTE DA POPULAÇÃO (ou subconjunto).
AMOSTRA (uma parte da população)
Podemos visualizar o conceito de população e amostra na figura ao lado. Quando pesquisamos toda a população, damos o nome de censo.
A precisão depende do tamanho da amostra, e quanto maior é o tamanho amostral, maior será a precisão das informações.
“n”
POPULAÇÃO (todos os elementos em estudo)
“N”
N é designado para População n é designado para Amostra
Muitas vezes quando queremos fazer um estudo estatístico, não é possível analisar toda a população envolvida com o fato que pretendemos investigar, como exemplo o sangue de uma pessoa ou a poluição de um rio. É impossível o teste do todo. Há situações também em que é inviável o estudo da população, por exemplo, a pesquisa com todos os torcedores em um estádio de futebol durante uma partida. Nesses casos, o estatístico recorre a uma amostra que, basicamente, constitui uma redução da população a dimensões menores, sem perda das características essenciais. Os resultados fundamentados em uma amostra não serão exatamente os mesmos que você encontraria se estudasse toda a população, pois, quando você retira uma amostra, você não obtém informações a respeito de todos em uma dada população. Portanto, é importante entender que os resultados da amostra fornecem somente estimativas dos valores das características populacionais. Com métodos de amostragens apropriados, os resultados da amostra produzirão “boas” estimativas da população, ou seja, um estudo bem feito não elimina o erro, mas limita‐o a uma margem, procurando torná‐la o menor possível. Quando aprendemos estatística inferencial, também aprendemos técnicas para controlar esses erros de amostragem. 4 razões para selecionar uma amostra O número de elementos em uma população é muito grande; Demanda menos tempo do que selecionar todos os itens de uma população; É menos dispendioso (caro) do que selecionar todos os itens de uma população; Uma análise amostral é menos cansativa e mais prática do que uma análise da população inteira.
Uanderson Rebula de Oliveira
Estatística
- 16 São exemplos de População e Amostra: MEDICINA. Pretende‐se estudar o efeito de um novo medicamento para curar determinada doença. É selecionado um grupo de 50 doentes, administrando‐se o novo medicamento a 10 desses doentes escolhidos ao acaso e o medicamento habitual aos restantes. População: Todos os 50 doentes com a doença que o medicamento a estudar pretende tratar. Amostra: Os 10 doentes selecionados. CONTROLE DE QUALIDADE. O Gerente de Produção de uma fábrica de parafusos pretende assegurar‐se de que a porcentagem de peças defeituosas não excede um determinado valor, a partir do qual determinada encomenda poderia ser rejeitada. População: Todos os parafusos fabricados ou a fabricar, utilizando o mesmo processo. Amostra: Parafusos escolhidos ao acaso entre os lotes produzidos. ESTUDOS DE MERCADO. O gerente de uma fábrica de produtos desportivos pretende lançar uma nova linha de esquis, pelo que encarrega uma empresa especialista em estudos de mercado de “estimar“ a porcentagem de potenciais compradores desse produto. População: conjunto de todos os praticantes de desportos de neve. Amostra: conjunto de alguns praticantes inquiridos pela empresa. SISTEMAS DE PRODUÇÃO. Um fabricante de pneus desenvolveu um novo tipo de pneu e quer saber o aumento da durabilidade em termos de kilometragem em relação à atual linha da empresa. Produz diariamente 1000 pneus e selecionou 120 para testes. População: 1000 pneus. Amostra: 120 pneus.
OUTROS EXEMPLOS DE AMOSTRAS:
Uanderson Rebula de Oliveira
Estatística
- 17 1.5 ESTATÍSTICA DESCRITIVA E ESTATÍSTICA INFERENCIAL AMOSTRA (uma parte da população)
POPULAÇÃO (todos os elementos em estudo)
Estatística descritiva – É o ramo da estatística que envolve a organização, o resumo e a representação dos dados para tomada de decisão. Estatística Inferencial – É o ramo da estatística que envolve o uso da amostra para chegar a conclusões sobre a população. Uma ferramenta básica no estudo da estatística inferencial é a probabilidade.
Algumas ferramentas Estatística Inferencial:
aplicadas
à
Probabilidades Uma Probabilidade é uma medida numérica que representa a chance de um evento ocorrer. Ex.: Ao lançar um dado, qual a probabilidade de obter o valor 4? R = 1/6 = 16%
Estimação, margem de erro e intervalo de confiança Suponha que o tempo médio que você leva para chegar ao trabalho de carro é de 35’, com uma margem de erro de 5’ para mais ou para menos. A estimativa é de que o tempo médio gasto até chegar ao trabalho fica em algum ponto entre 30’ e 40’. Esta estimativa é um intervalo de confiança, pois leva em consideração o fato de que os resultados da amostra irão variar e dá uma indicação de uma variação esperada.
A margem de erro é uma medida de quão próximo você espera que seus resultados representem toda a população que está sendo estudada. Vários fatores influenciam a amplitude de um intervalo de confiança, tais como o tamanho amostral, a variabilidade da população e o quanto você espera obter de precisão. A maioria dos pesquisadores contenta‐se com 95% de confiança em seus resultados. Estar 95% confiante indica que se você coletar muitas, mas muitas amostras e calcular o intervalo de confiança para todas, 95% dessas amostras terão intervalos de confiança que abrangerão o alvo.
Teste de hipótese Teste de hipótese é um procedimento estatístico em que os dados são coletados e medidos para comprovar uma alegação feita sobre uma população. Por exemplo, se uma pizzaria alega entregar as pizzas dentro de 30’ a partir do pedido, você pode testar se essa alegação é verdadeira, coletando uma amostra aleatória do tempo de entrega durante um determinado período de tempo e observar o tempo médio de entrega para essa amostra.
Uanderson Rebula de Oliveira
Estatística
- 18
2 SÉRIES ESTATÍSTICAS
Uanderson Rebula de Oliveira
Estatística
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
- 19 2.1 CONCEITOS E TIPOS DE SÉRIES As tabelas e gráficos constituem um importante instrumento de análise e interpretação de um conjunto de dados. Diariamente é possível encontrar tabelas e gráficos nos mais variados veículos de comunicação (jornais, revistas, televisão, Internet), associadas a assuntos diversos do nosso dia‐a‐dia, como resultados de pesquisas de opinião, saúde e desenvolvimento humano, economia, esportes, cidadania, etc. A importância das tabelas e dos gráficos está ligada sobretudo à facilidade e rapidez na absorção e interpretação das informações por parte do leitor e também às inúmeras possibilidades de ilustração e resumo dos dados apresentados.
TABELAS São quadros que resumem um conjunto de dados.
Título – conjunto de informações sobre o estudo. Cabeçalho –especifica o conteúdo das colunas Coluna indicadora –especifica o conteúdo das linhas Coluna numérica ‐–especifica a quantidade das linhas Linhas – retas imaginárias de dados Célula – espaço destinado a um só número Rodapé – simplesmente a fonte dos dados
Tipos de Tabelas SÉRIE HISTÓRICA Descreve os valores da variável, discriminados por TEMPO (anos, meses, dias, horas, etc.
SÉRIE GEOGRÁFICA Descreve os valores da variável, discriminados por REGIÕES (países, cidades, bairros, ruas, layout, etc)
SÉRIE ESPECÍFICA Descreve os valores da variável, discriminados por temas ESPECIFICOS.
SÉRIE CONJUGADA É utilizado quando temos a necessidade de apresentar em uma única tabela a variação de valores DE MAIS DE UMA VARIÁVEL, isto é, fazer de forma conjugada de duas ou mais séries. Esta série, por exemplo, é GEOGRÁFICA – HISTÓRICA
Uanderson Rebula de Oliveira
Estatística
- 20 GRÁFICOS A importância dos gráficos está ligada à facilidade e rapidez na absorção e interpretação das informações e também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. Eis os mais usados: Gráfico em Linha (para séries históricas) É a representação dos valores por meio de linhas. Usamos quando precisamos de uma informação rápida de um valor ao longo do tempo. ACIDENTES DO TRABALHO SÃO PAULO: 1989 ‐ 1994 10000 8658 Quantidade
8000
9578
7265 6325
6254
6000 5458 4000 2000 0 1989
1990
1991
1992
1993
1994
Anos
FONTE: Dados fictícios
ACIDENTES DO TRABALHO EM SÃO PAULO: 1989 ‐ 1991 2500 São Paulo
Quantidade
2000
Guarulhos 1500
Campinas Osasco
1000
Santos
500 0 1989
FONTE: Dados fictícios
1990
1991
anos
Gráfico em Colunas É a representação dos valores por meio de retângulos, dispostos verticalmente. Utiliza‐se muito quando necessitamos saber a quantidade de valor. QUANTIDADE DE ACIDENTES DO TRABALHO SÃO PAULO: 1989 ‐ 1994 12000 9578
Quantidade
10000 8000
8658 7265
6254
6325 5458
6000 4000 2000 0 1989
FONTE: Dados fictícios
Uanderson Rebula de Oliveira
1990
1991
1992
1993
1994
Anos
Estatística
- 21 -
Tipo
Gráfico em Barras É o mesmo conceito que o de Colunas, porém utiliza‐se sempre que os dizeres a serem inscritos são extensos. QUANTIDADE DE ACIDENTES DO TRABALHO EM SÃO PAULO ‐ POR TIPO ‐ 1989 598 Corte 3578 Queda Atrito 698 Perfuração 55 1396 Impacto 0 1000 2000 3000 4000 Quantidade FONTE: Dados fictícios Gráfico em Setores Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação de um dado no total, geralmente na forma de porcentagem.
ACIDENTES DO TRABALHO SÃO PAULO ‐ 1989
FONTE: Dados fictícios
Gráfico Polar É o gráfico ideal para representar séries temporais cíclicas, isto é, séries temporais que apresentam em seu desenvolvimento determinada periodicidade, por exemplo, o mês de janeiro a dezembro.
ACIDENTES DO TRABALHO SÃO PAULO ‐ 1989
FONTE: Dados fictícios
Uanderson Rebula de Oliveira
Estatística
- 22 Gráfico de Pareto É um gráfico de colunas na qual a altura de cada barra representa os dados, porém na ordem de altura decrescente, com a coluna mais alta posicionada à esquerda. Tal posicionamento ajuda a enfatizar dados importantes e é frequentemente usado nos negócios. Os cinco veículos mais vendidos no Brasil em janeiro de 1995
Os cinco veículos mais vendidos no Brasil em janeiro de 1995
Veículo Ômega Monza Gol Corsa Fusca FONTE: dados fictícios
Quantidade (milhões)
40
Quantidade (milhões) 34 30 25 22 15
34 30
30
25
22
20
15
10 0
Ômega FONTE: Dados fictícios
Monza
Gol
Corsa
Fusca
Veículos
Gráfico de Dispersão É usado para representar a relação entre duas variáveis quantitativas, por meio de pontos e linhas. Aprendemos a utilizar esse gráfico quando estudamos “Correlação e Regressão”. Investimentos versus vendas no setor da empresa X Anos 1999 2000 2001 2002
Investimentos 500 1000 1500 2000
Vendas 1000 2000 3000 4000
FONTE: dados fictícios
Gráfico Cartograma Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas (mapas), corpo humano entre outras figuras.
Número de cada Delegacia
FONTE: SSP/SP
Uanderson Rebula de Oliveira
Estatística
- 23 2.2 DISTRIBUIÇÃO DE FREQUÊNCIA Frequência absoluta e Histograma Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi-los em uma tabela, chamada Distribuição de frequência.
Na distribuição de frequência listamos todos os valores coletados, um em cada linha, marcam‐se as vezes em que eles aparecem, incluindo as repetições, e conta‐se a quantidade de ocorrências de cada valor. Por este motivo, tabelas que apresentam valores e suas ocorrências denominam‐se distribuição de freqüências. O termo “freqüência” indica o número de vezes que um dado aparece numa observação estatística.
EXEMPLO Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma: Notas dos 25 alunos
4,0 4,0 4,0 4,0 4,0
5,0 5,0 5,0 6,0 6,0
7,0 7,0 7,0 8,0 8,0
9,0 9,0 9,0 9,0 9,0
9,0 9,0 9,0 9,0 9,0
Comentário
Agora ele pode fazer uma representação gráfica para analisar o desempenho da turma. Em primeiro lugar, o professor pode fazer uma tabulação dos dados, ou seja, organizá‐los de modo que a consulta a eles seja simplificada. Então, faremos a distribuição de freqüência destas notas, por meio da contagem de dados.
Distribuição de freqüência
Nota
Freqüência, f
4,0 5,0 6,0 7,0 8,0 9,0
5 3 2 3 2 10 f=25
(nº de alunos)
Representamos a freqüência por um gráfico, chamado Histograma. Comentário
Número de alunos
Desempenho dos alunos na prova 10
10 8 6
3
2
3
2
0 4,0
5,0
6,0 7,0 Nota
8,0
Quando os dados numéricos são organizados, eles geralmente são ordenados do menor para o maior, divididos em grupos de tamanho razoável e, depois, são colocados em gráficos para que se examine sua forma, ou distribuição (no exemplo: 4,0 – 5,0 – 6,0 – 7,0 – 8,0 – 9,0). Este gráfico é chamado de Histograma. Um histograma é um gráfico de colunas juntas. Em um histograma não existem espaços entre as colunas adjacentes, como ocorre em um gráfico de colunas. No exemplo, a escala horizontal (→) representa as notas e a escala vertical (↑) as freqüências.
5
4 2
A frequência absoluta da nota 4,0 é 5. A freqüência absoluta da nota 9,0 é 10.
O símbolo grego “sigma” significa “somatório”, muito usado em Estatística. Portanto, f=25 significa a soma de 5+3+2+3+2+10.
HISTOGRAMA
12
Comentário
Esta forma de organizar dados é conhecida como distribuição de frequência, e o número de vezes que um dado aparece é chamado de frequência absoluta, representado por f. Exemplos:
9,0
O histograma ao lado indica que cinco alunos tiraram a nota 4,0; três alunos tiraram a nota 5,0; dois alunos tiraram a nota 6,0; três alunos tiraram a nota 7,0; dois alunos tiraram 8,0 e dez alunos tiraram 9,0.
ESTA FREQUÊNCIA QUE ACABAMOS DE ESTUDAR É DENOMINADA FREQUENCIA ABSOLUTA (f), QUE É SIMPLESMENTE A CONTAGEM DOS DADOS.
Em Estatística não trabalhamos somente com frequência absoluta (f), mas também com outros tipos de freqüências, que são: freqüência relativa (fr), frequência absoluta acumulada (Fa) e frequência relativa acumulada (FRa).
Estudaremos agora cada uma delas.
Uanderson Rebula de Oliveira
Estatística
- 24 Frequência Relativa fr (%) Conceito. Representado por fr(%), significa a relação existente entre a frequência absoluta f e a soma das freqüências f. É a porcentagem (%) do número de vezes que cada dado aparece em relação ao total.
EXEMPLO 5
/25 * 100 = 20%. freqüência relativa fr (%)
Nota 4,0 5,0 6,0 7,0 8,0 9,0
Comentários aos cálculos f A frequência relativa fr(%) é obtida por /f * 100, conforme abaixo:
f
fr(%) 5 20% 3 12% 2 8% 3 12% 2 8% 10 40% f=25 100%
5
A fr(%) da nota 4,0 é /25 * 100 = 20%. 3 A fr(%) da nota 5,0 é /25 * 100 = 12% 2 A fr(%) da nota 6,0 é /25 * 100 = 8% 3 A fr(%) da nota 7,0 é /25 * 100 = 12% 2 A fr(%) da nota 8,0 é /25 * 100 = 8% 10 A fr(%) da nota 9,0 é /25 * 100 = 40%.
Frequência Absoluta Acumulada Fa Conceito. Representado por Fa, significa a soma das freqüências absolutas até o elemento analisado.
EXEMPLO Fa2=5+3 = 8 frequência absoluta acumulada (Fa)
Nota 4,0 5,0 6,0 7,0 8,0 9,0
f
fr(%) 5 20% 3 12% 2 8% 3 12% 2 8% 10 40% f=25 100%
Comentários aos cálculos
A frequência absoluta acumulada Fa é obtida conforme abaixo:
Fa 5 8 10 13 15 25 ‐
A Fa da nota 4,0 é 5 (sempre repete a primeira). A Fa das notas 4,0 e 5,0 é 5+3=8. A Fa das notas 4,0, 5,0 e 6,0 é 5+3+2=10. A Fa das notas 4,0, 5,0, 6,0 e 7,0 é 5+3+2+3=13. A Fa das notas 4,0, 5,0, 6,0, 7,0 e 8,0 é 5+3+2+3+2=15. A Fa das notas 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 5+3+2+3+2+10=25
Frequência Relativa Acumulada FRa (%) Conceito. Representado por FRa (%), significa a soma das freqüências relativas fr(%) até o elemento analisado.
EXEMPLO 20% + 12% = 32% frequência relativa acumulada (FRa)
Nota 4,0 5,0 6,0 7,0 8,0 9,0
f fr(%) 5 20% 3 12% 2 8% 3 12% 2 8% 10 40% f=25 100%
Fa 5 8 10 13 15 25 ‐
FRa(%) 20% 32% 40% 52% 60% 100% ‐
Comentários aos cálculos
A frequência relativa acumulada FRa(%) é obtida conforme abaixo:
A FRa(%) de 4,0 é 20% (sempre repete a primeira). A FRa(%) de 4,0 e 5,0 é 20+12 = 32% A FRa(%) de 4,0, 5,0 e 6,0 é 20+12+8 = 40% A FRa(%) de 4,0, 5,0, 6,0 e 7,0 é 20+12+8+12 = 52% A FRa(%) de 4,0, 5,0, 6,0, 7,0 e 8,0 é 20+12+8+12+8 = 60% A FRa(%) de 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 20+12+8+12+8+40=100%
NOTA IMPORTANTE SOBRE DISTRIBUIÇÃO DE FREQUÊNCIA: Nota
f
fr(%)
f=25
100%
Uanderson Rebula de Oliveira
Fa 25 ‐
FRa(%) 100% ‐
Para saber se o desenvolvimento da distribuição de freqüência por completo está correto, os valores ao lado, em vermelho, deverão coincidir.
Estatística
- 25 Agrupamento em Classes Em uma distribuição de frequência, ao se trabalhar com grandes conjuntos de dados e com valores dispersos, podemos agrupá-los em classes.
Se um conjunto de dados for muito disperso, uma representação melhor seria através do agrupamento dos dados com a construção de classes de frequência. Caso isso não ocorresse, a tabela ficaria muito extensa. Veja abaixo:
EXEMPLO Um radar instalado na Dutra registrou a velocidade (em Km/h) de 40 veículos, indicadas abaixo: Velocidade de 40 veículos (Km/h)
70 71 73 76 80 81 83 86
90 93 95 97 97 97 99 99
100 102 103 105 105 109 109 109
110 123 115 123 115 123 115 123 117 124 117 124 121 128 121 128
Distribuição de frequência
Nota 70 71 73 76 80 81 83 86 90 93 95 97 99 100 102 103 105 109 110 115 117 121 123 124 128
f
1 1 1 1 1 1 1 1 1 1 1 3 2 1 1 1 2 3 1 3 2 2 4 2 2 f=40
É fácil ver que a distribuição de frequências diretamente obtida a partir desses dados é dada uma tabela razoavelmente extensa.
Distribuição de frequência com classes
Limite inferior
i 1 2 3 4 5 6
Classes
Velocidade (Km/h)
f
70 80 80 90 90 100 100 110 110 120 120 130
4 4 8 8 6 10 f=40
Limite superior
A distribuição em ”classes” é como se fosse uma compressão dos dados. Imagine se fizéssemos uma distribuição de frequência de todas velocidades (de 70 a 128). A tabela ficaria imensa! Por este motivo existe a distribuição de frequência com classes.
Como criar uma Distribuição de Freqüência com classes 1. Calcule a quantidade de classes (i), pela raiz da quantidade de dados. São 40 veículos. Então, 40 = 6,3 i = 6 classes. 2. Calcule a amplitude de classe (h) que é o tamanho da classe, sendo:
Maior valor – Menor valor = 128 – 70 = 9,6 h=10 quantidade de classes (i) 6 Nota: o Maior valor (128) e o Menor valor (70) são obtidos da lista dos registros das velocidades dos 40 veículos.
3. Montar as classes a partir do Menor valor (70), somando com a amplitude de classe (10) até que se chegue na 6ª classe, assim: i 1 2... ...6
Velocidade (Km/h) 70 +10 80 80 +10 90 120 +10 130
TIPOS DE INTERVALOS DE CLASSE Tipo
Representação
Dados do intervalo
Aberto
70 80
Fechado à esquerda
70 80 70 80 70 80
70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
Fechado Fechado à direita
70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
No Brasil usa‐se o intervalo (Resolução 866/66 do IBGE). Já na literatura estrangeira utiliza‐se comumente com intervalo fechado.
CONCEITOS IMPORTANTES LIMITES DE CLASSE ‐ São os valores extremos de cada classe. No exemplo 70 80, temos que o limite inferior é 70 e o limite superior 80. AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT) – É a diferença entre o limite superior da última classe e o limite inferior da primeira classe, no exemplo 130 – 70 = 60. AMPLITUDE AMOSTRAL (AA) – É a diferença entre o valor máximo e o valor mínimo da amostra, no exemplo 128 – 70 = 58.
Uanderson Rebula de Oliveira
Estatística
- 26 Abaixo vemos as distribuições de frequências absoluta f, relativa fr(%), absoluta acumulada Fa e relativa acumulada FRa(%), bem como o Histograma desta distribuição. Distribuição de freqüência com classes f, fr(%), Fa e FRa (%)
f
Fr(%)
Fa
FRa(%)
4 4 8 8 6 10
10% 10% 20% 20% 15% 25%
4 8 16 24 30 40
10% 20% 40% 60% 75% 100%
f=40
Quantidade de veículos
i Velocidade (Km/h) 1 70 80 2 80 90 3 90 100 4 100 110 5 110 120 6 120 130
Resultados dos registros de um radar
12
10
10 8
8
8 6
6 4
4
4
2 0
100%
70 80 90 100 110 120 130 Velocidade (Km/h)
OUTRAS REPRESENTAÇÕES GRÁFICAS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA Polígono de frequência – É um gráfico em linha que representa os pontos centrais dos intervalos de classe. Para construir este gráfico, você deve calcular o ponto central de classe (xi), que é o ponto que divide o intervalo de classe em duas partes iguais. Por exemplo, a velocidade dos veículos da 1ª classe pode ser representada por 70 + 80 = 75Km/h 2 Velocidade (Km/h)
f
xi
70 80 80 90 90 100 100 110 110 120 120 130
4 4 8 8 6 10
75 85 95 105 115 125
Resultados dos registros de um radar
12 Quantidade de veículos
i 1 2 3 4 5 6
Ponto central
75Km/h
70 80
f=40
10 8 6 4 2
0 70 75 80 85 90 95 100 105 110 115
A construção de um polígono de frequências é muito simples. Primeiro, construímos um histograma; depois marcamos no “telhado” de cada coluna o ponto central e unimos sequencialmente esses pontos.
120
125 130
Velocidade (Km/h)
Ogiva – (pronuncia‐se o’jiva). Conhecida também por polígono de frequência acumulada. É um gráfico em linha que
i Velocidade (Km/h) 1 70 80 2 80 90 3 90 100 4 100 110 5 110 120 6 120 130
f
Fa
4 4 8 8 6 10
4 8 16 24 30 40
f=40
Quantidade de veículos
representa as freqüências acumuladas (Fa), levantada nos pontos correspondentes aos limites superiores dos intervalos de classe. Para construí‐la, você deve elaborar o histograma de freqüência f em uma escala menor, considerando o último valor a freqüência acumulada da última classe, no caso, 40.
40 35 30 25 20 15 10 5 0
Resultados dos registros de um radar
40 30
24 16
4
4 4
8 8
10
8
6
70 80 90 100 110 120 130 Velocidade (Km/h)
Uanderson Rebula de Oliveira
Estatística
- 27 -
3 MEDIDAS RESUMO O que dizer se um professor quer saber sobre as notas dos 110 alunos de uma disciplina? Poderíamos, talvez, utilizar para resposta uma tabela com as frequências das notas. Porém, o professor gostaria de uma resposta rápida, que sintetize a informação que se tem, e não uma distribuição de frequência das notas coletadas. Para resumir a quantidade de informação contida em um conjunto de dados, utilizamos, em estatística, medidas que descrevem, POR MEIO DE UM SÓ NÚMERO, características desses dados. Veja exemplo abaixo. NOTAS DE ESTATÍSTICA DE 110 ALUNOS DA ESCOLA A 5.6
8.3
4.5
8.7
3.9
9
5.5
7.9
9.5
10
9.6
6.6
5.3
3
9.5
3.9
9
5.6
7
5.9
7
8.9
2
8.7
9
3
8
6.7
4.2
6.5
6.5
4.6
9.5
5.3
3.9
9
3
8.8
9
8.9
7.1
6.5
3.9
4.9
9.4
5.3
9.5
2
5.3
7.5
9.2
9.8
9.5
5.9
5.5
5
7
8.3
5.6
9
6.1
5.6
4.9
6.5
9
9.6
7.5
7
9
4.5
4.2
8.9
9.6
9.8
8
6.5
7.9
2
5
5.3
7.3
8
9
5.6
1
9.8
4
9.5
3.6
5
8.6
4.2
9.6
8.9
5.9
4.2
6
5.3
8
2.8
9.2
9
9.8
3.9
8
9.5
3.3
8.4
5.3
4.5
Para uma conclusão rápida, qual foi o desempenho desses alunos? Isto pode ser respondido com as medidas abaixo. Medidas resumo
Valor
Média
6,5
Interpretação Valor que representa o ponto de equilíbrio das notas (como uma gangorra).
Mediana
7,0
50% dos alunos tiraram abaixo de 7,0.
Moda
9,0
Nota que mais se repetiu.
Desvio padrão ‐ DP
2,3
A maioria das notas está variando entre ±2,3 em torno da média 6,5 (4,2‐‐‐‐8,8)
Coeficiente variação
34%
Há variação de 34% das notas em torno da média (complementa o DP).
1º Quartil
5,0
25% dos alunos tiraram abaixo de 5,0.
3º Quartil
9,0
75% dos alunos tiraram abaixo de 9,0.
Através dessas informações é possível analisar o desempenho desses alunos.
Uanderson Rebula de Oliveira
Estatística
- 28 3.1 MEDIDAS DE POSIÇÃO São medidas que utilizamos para obter um número que represente o valor central de um conjunto de dados. As Medidas de Tendência Central mais utilizadas são: Média, Mediana e Moda.
MÉDIA MÉDIA SIMPLES - É uma medida que representa um valor típico ou normal num conjunto de dados. A média simples serve como um “ponto de equilíbrio” em um conjunto de dados (como o ponto de apoio de uma gangorra). Cada dado tem igual importância e peso. Sofre a influência de todos os dados.
A Média simples é obtida pela seguinte equação:
x
= x → soma dos valores dos dados n → quantidade de dados
A Média é representada por (lê‐se “x barra”)
x
EXEMPLO. Supondo que uma escola adote como critério de aprovação a Média 7,0 e, considerando as quatro notas de João e Maria durante o ano, informe se foram aprovados.
Notas de João: 3,5 | 6,0 | 9,5 | 9,0 |
n
4
6.0
6.0 4.0
9.0
7,0
8.0 Notas
x = x 3,5 + 6,0 + 9,5 + 9,0
Média das notas de João 9.5
10.0
Média de João
3.5
2.0
x = 7,0 → aprovado
0.0 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
MÉDIA PONDERADA. Semelhante a Média simples, porém, atribuindo-se a cada dado um peso que retrate a sua importância.
O termo “ponderação” é sinônimo de peso, importância, relevância. Sugere, então, a atribuição de um peso a um determinado dado. Em alguns casos, os valores variam em grau de importância, de modo que podemos querer ponderá‐los apropriadamente. É calculada multiplicando‐se um peso por cada valor, fazendo com que alguns valores influenciem mais fortemente a média do que outros.
A Média ponderada é obtida pela seguinte equação:
xp
Vamos representar a Média ponderada por
= (x . p) → soma dos valores . pesos p → soma dos pesos
xp
EXEMPLO Supondo que uma escola adote como critério de aprovação a Média 7,0, sendo que as provas bimestrais são ponderadas com pesos 1, 2, 3 e 4, respectivamente para o 1º bim, 2º bim, 3º bim e 4º bim. Considerando as notas de João (na ordem bimestral crescente), informe se foi aprovado. Média ponderada das notas de João
Notas de João: | 9,0 | 8,0 | 6,0 | 5,0
x p = (x . p) p
xp
= (9,0 . 1) + (8,0 . 2) + (6,0 . 3) + (5,0 . 4) 1+2+3+4
x p = 6,3 → reprovado Nota. Em uma média simples ele seria aprovado por 7,0.
Notas e pesos
10,0 9,0
8,0
8,0
6,3
6,0
Média ponderada 5,0
6,0
4,0 2,0 1
2
1º Bim
2º Bim
3
4
0,0 Média 3º Bim Bimestres
4º Bim
A atribuição de pesos visa fazer com que certos valores tenham mais influência no resultado do que outros. Também pode ser aplicado em cálculos de índices de inflação, atribuindo pesos para setor de vestuário, alimentação, etc.
Uanderson Rebula de Oliveira
Estatística
- 29 MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA – aplica-se quando não se tem a lista original dos dados Quando trabalhamos com uma distribuição de frequência, não sabemos os valores exatos que caem em determinada classe. Para tornar possíveis os cálculos, consideramos que, em cada classe, todos os valores amostrais sejam iguais ao ponto central de classe. Por exemplo, considere o intervalo de classe 70 80, com uma frequência de 4. Admitimos que todos os 4 valores sejam iguais a 75 (o ponto central de classe). Com o total de 75 repetido 4 vezes, temos um total de 75 x 4 = 300. Podemos, então, somar esses produtos obtidos de cada classe para encontrar o total de todos os valores, os quais, então, dividimos pela quantidade de dados.
É importante salientar que a distribuição de frequência resulta em uma aproximação da média porque não se baseia na lista original exata dos valores amostrais.
CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA COM INTERVALO DE CLASSE Ponto central de classe
f
i Velocidade (Km/h) 1 70 80 2 80 90 3 90 100 4 100 110 5 110 120 6 120 130
x
f . x
4 x 75 = 300 4 85 340 8 95 760 8 105 840 6 115 690 10 125 1250 ‐ f=40 (f.x) = 4180
Procedimento: 1. 2. 3.
4.
Multiplicar as frequências f pelos pontos centrais de classe x e adicionar os produtos. Somar as frequências f; Somar os produtos (f.x); Aplicar a fórmula abaixo:
x = (f.x) → 4180 = 104,5 Km/h f
40
Média a partir de um HISTOGRAMA COM INTERVALOS DE CLASSE: R e s u lta d o s d o s re g is tro s d e u m ra d a r
Quantidade de veículos
12
10
10
(4*75)+(4*85) ...
8 6
4
4
+
x
2
8
8
Não é necessário montar tabela. Veja na figura ao lado que basta multiplicar a freqüência pelo ponto médio e adicionar os produtos. Depois, divida pela soma das freqüências.
6
(4*75)+(4*85)+(8*95)+(8*105)+(6*115)+(10*125) 4+4+8+8+6+10
4
x
0
75 85 95 105 115 125 70 80 90 100 110 120 130 Velocidade (Km/h)
x = (f.x) → 4180 = 104,5 Km/h f
40
CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALO DE CLASSE f
Nota (x)
f . x
(nº de alunos)
4,0 5,0 6,0 7,0 8,0 9,0
=
X 5
3 2 3 2 10 f=25
20 15 12 21 16 90 (f.x) = 174
Média a partir de um HISTOGRAMA SEM INTERVALO DE CLASSE
Número de alunos
Desempenho dos alunos na prova 12 10 8 6 4 2 0
10
5 3
x 4.0
5.0
2
3
6.0 7.0 Nota
Uanderson Rebula de Oliveira
Quando a distribuição não tem agrupamento de classes, consideraremos as frequências como sendo os pesos dos elementos correspondentes:
(5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0) 5+3+2+3+2+10
x =(f.x) → 174 = 6,96 f
25
Multiplique a freqüência por “x” (notas) e adicione os produtos. Depois, divida pela soma das freqüências.
(5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0) 5+3+2+3+2+10
x =(f.x) → 174 = 6,96 2
8.0
f
25
9.0
Estatística
- 30 MEDIANA Medida que representa o valor que está no MEIO de um conjunto de dados. Uma desvantagem da média simples é que ela é sensível a qualquer valor, de modo que um valor excepcional (alto ou baixo) pode afetar drasticamente a média. A Mediana supera grandemente essa desvantagem, pois não é afetada por valores extremos, de tal modo que você pode utilizar a mediana quando estão presentes valores extremos.
0%
50%
100%
Mediana
Como achar a mediana de um conjunto de dados
As posições dos termos centrais são dadas por:
e P2 = a que sucede P1
P1
1 2 9
P
= 5 → 5ª posição
0 1 2
Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785, 995. n=10
Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785. n=9
P1
1 2 n
P
A Posição do termo central é dada por:
n 2
Para quantidade PAR de valores
Para quantidade ÍMPAR de valores
= 5ª posição e
P2 = 6ª posição
A Md é o valor entre a 5º e 6ª posição. Ordenando os dados, temos:
A Md é o valor da 5º posição. Ordenando os dados, temos:
12, 69, 71, 73, 75, 78 80, 82, 785, 995
12, 69, 71, 73, 75 ,78, 80, 82, 785
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª
= 76,5
2
8 7
A Md é a Média dos dois termos centrais.
5 7
d M
Mediana
Mediana
MEDIANA de uma distribuição de frequência e Histograma SEM INTERVALOS DE CLASSE
→
1 5 2 2
1 2 n
Da 1ª até a 4ª 4 Da 5ª até a 7ª 7 Da 8ª até a 9ª 9 Da 10ª até a 12ª 12 14 Da 13ª até a 14ª 25 Da 15ª até a 25ª
4 3 2 3 2 11
Desempenho dos alunos na prova
f = n = 25 → ímpar
Observações
P
4,0 5,0 6,0 7,0 8,0 9,0
Fa
= 13ª
Os dados já estão ordenados. Então a Md é o valor da 13ª posição. Através da Fa fica fácil identificar a posição central:
Número de alunos
f
Nota
12 10 8 6 4 2 0
11
Fa 13ª 4
3
4.0
Então, a nota Md = 8,0
3
2
5.0
6.0
2
7.0
8.0
9.0
Nota Md = 8,0
f=25
MEDIANA de uma distribuição de frequência e Histograma COM INTERVALOS DE CLASSE n
Acumule Fa e ache a posição da Md
i 1 2 3 4 5 6
Velocidades
f
Fa
70 80 80 90 90 100 100 110 110 120 120 130
4 4 8 8 6 10
4 8 16 24 30 40
n 2 ‐ Fa ant * h Md l inf f
20ª
l inf = limite inferior da classe mediana Faant = Fa da classe anterior h = amplitude do intervalo de classe f = freqüência da classe mediana
f=40 Resultados dos registros de um radar Fa
Quantidade de veículos
12
10 8 6 4 2 0
Fa ant = 16 (4+4+8)
20ª 8
4
10
8
f = 8
40
Independente se n é ímpar ou par usa‐se a equação /2. Então, /2 = 20 A Md está na 20ª posição e será algum valor da classe mediana 100 110. A partir da equação abaixo podemos achar uma aproximação da Md.
6
4
← h → 10 l inf
Resolvendo a equação, temos:
40 2 ‐ 16 * 10 Md 100 8 Md = 105 Km/h, aproximadamente
O total das frequências é 40. Então, a Md será 40/2 = 20ª posição. Observe pelo Fa que a classe mediana é 100 110. Também é possível determinar l inf, Fa ant, h e f. Então, aplicando a equação, temos:
40 2 ‐ 16 * 10 = 105 km/h, aproximadamente Md 100 8
70 80 90 100 110 120 130 Velocidade (Km/h)
Uanderson Rebula de Oliveira
Estatística
- 31 NOTA SOBRE A MEDIANA. A mediana é menos utilizada do que a média simples. A mediana pode ser aplicada quando existem valores discrepantes em um conjunto de dados. Por exemplo, se a renda per capita de sete famílias fosse: $240; $370; $410; $520; $630; $680 e $820, a mediana seria $520 e a média $524. Essas duas medidas poderiam representar este conjunto de dados. Mas se a renda de sete famílias fosse: $240; $370; $410; $520; $630; $680 e $10.000, o valor da mediana manter‐se‐ia o mesmo, enquanto a média simples passaria a ser $1.836, pois foi influenciada pelo valor discrepante ($10.000), que não é uma medida ideal para representar este conjunto de dados. A medida ideal seria a mediana. Note que os valores discrepantes tem, pois, muito menor influência sobre a mediana do que sobre a média. Em relação à mediana na distribuição de freqüência com intervalos de classe, admite‐se que as velocidades dos veículos se distribuem 40 continuamente. Nesse caso, a mediana é a velocidade para o qual a metade da freqüência total /2 = 20 fica situada abaixo e a outra acima dele. Ora, a soma das três primeiras freqüências de classe é 4+4+8 = 16. Então, para obter a 20ª velocidade desejada, são necessários mais 4 4 dos 8 casos existentes na 4ª classe. Como o quarto intervalo de classe, 100 110, a mediana situa‐se a 4/8 de distância, e é: 100 + /8 (110 – 100) = 105 km/h. Com a equação fica mais fácil encontrar a mediana pois não exige este tipo de raciocínio.
MODA Medida que representa o valor que mais se REPETE em um conjunto de dados. Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante! Em estatística a moda é o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes em uma série de dados. A moda não é necessariamente única, ao contrário da média simples ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas.
Exemplos:
A série {1, 3, 5, 5, 5, 6, 6, 7} apresenta moda = 5, pois é o número que mais se repete. A série {1, 3, 5, 5, 6, 6, 7, 8} apresenta duas modas (Bimodal): 5 e 6, pois são os que mais se repetem. A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (Polimodal): 5, 6 e 7 A série {1, 3, 2, 5, 8, 7, 9, 10} não apresenta moda = amodal, pois nenhum número se repete.
MODA de uma distribuição de freqüência e Histograma SEM INTERVALOS DE CLASSE Notas dos alunos
5,0 6,0 6,0 7,0 7,0 7,0 8,0
8,0 9,0 9,0 9,0 9,0 9,0 9,0
9,0 9,0 9,0 9,0
A Moda será a nota 9,0, pois é a que mais se repete no conjunto de dados
Nota 4,0 5,0 6,0 7,0 8,0 9,0
Desempenho dos alunos na prova
f (nº de alunos)
5 3 2 3 2 10 f=25
Número de alunos
4,0 4,0 4,0 4,0 4,0 5,0 5,0
12
10
10
Moda Nota 9,0
8 5
6
3
4 2
2
3
2
0 4,0
5,0
6,0 7,0 Nota
8,0
9,0
MODA de uma distribuição de frequência e Histograma COM INTERVALOS DE CLASSE 120+130 = 125Km/h a) Moda Bruta
4 4 8 8 6 10
f=40
A Moda Bruta será o ponto médio de classe modal, que é a classe que apresenta a maior frequência. Então: Mo = 120 + 130 = 125Km/h 2
Classe modal (tem maior frequência)
12 Quantidade de veículos
i Velocidade (Km/h) 1 70 80 2 80 90 3 90 100 4 100 110 5 110 120 6 120 130
f
2 Resultados dos registros de um radar
10 8
8
8 6
6 4
10
4
4
2 0
70 80 90 100 110 120 130 Velocidade (Km/h)
NOTAS SOBRE A MODA. Na distribuição de freqüência em classes, o método utilizado para encontrar a moda por meio do ponto médio de classe é chamado de moda bruta, e é apenas uma aproximação pois não foi baseada na lista original de dados. Existem outros métodos para encontrar a Moda de uma distribuição de freqüência com intervalo de classe: Método de Czuber, Método de King e Método de Pearson, normalmente exigidos em concursos públicos.
Uanderson Rebula de Oliveira
Estatística
- 32 -
b) Moda de czuber D1 Mo Czuber *h D1 D 2
limite inferior da classe modal D1 = f* – f(ant) D2 = f* – f(post) h = amplitude da classe modal
f* = frequência da classe modal f(ant) = frequência da classe anterior à classe modal f(post) = frequência da classe posterior à classe modal
Exemplo de cálculo da Moda de Czuber (pela Distribuição de Freqüência e pelo Histograma) Registro das velocidades de veículos em uma rodovia i Velocidade (Km/h) f
4 70 80 4 80 90 8 90 100 8 100 110 6 110 120 10 120 130 f=40
Classe modal (tem maior frequência)
Quantidade de veículos
1 2 3 4 5 6
Resultados dos registros de um radar
12 10
8
8
f(ant)
f(post)
6
6 4
8
f* 10
4
4
h*
2 0
70 80 90 100 110 120 130
Classe modal
Velocidade (Km/h) (10 - 6)
Mo l
D1 * h → D1 D 2
Mo 120
4 * 10 4 10
(10 - 6)
Mo 122,85
(10 - 0)
Nota: Como não existe frequência simples da classe posterior à classe modal, então f‐ f(post) = 10 ‐ 0.
- FUNDAMENTOS DA EQUAÇÃO DE CZUBER – Pode‐se determinar graficamente a posição da Moda no histograma representativo de uma distribuição de frequências. O método descrito abaixo é o equivalente geométrico da equação de Czuber.
1º ‐ A partir dos vértices superiores do retângulo correspondente à classe modal (A e B), traçamos os seguimentos concorrentes AC e BD, ligando cada um deles ao vértice superior adjacente do retângulo correspondente a uma classe vizinha, conforme ilustrado na figura acima. 2º ‐ A partir da interseção dos segmentos AC e BD, baixamos uma perpendicular ao eixo horizontal, determinando o ponto que indica a Moda, que é 122,85.
Uanderson Rebula de Oliveira
Estatística
- 33 -
RELAÇÃO
ENTRE MÉDIA, MEDIANA E MODA.
Pelo formato da distribuição dos dados, sempre existirá uma relação empírica (baseado na experiência) entre a média, mediana e a moda. Através dessa relação podemos saber, aproximadamente, onde se encontram essas medidas, sem necessidade de cálculos. Quando a Média, Mediana e Moda se coincidem, chamamos a distribuição dos dados de Simétrica ou Normal. SIMÉTRICA ou NORMAL ou FORMA DE SINO Média = mediana = moda
Resultados dos registros de um radar
10 Quantidade de veículos
8
7
6 4
4
Quando a distribuição tem a forma de sino (linha tracejada), a quantidade de dados vai aumentando, atinge um pico, e depois Média diminui. Se dividíssemos em duas metades, a partir do centro, Mediana note que os dois lados seriam iguais. O calculo abaixo confirma a Moda afirmativa que numa distribuição normal a média, mediana e moda se coincidem.
Média = 70(3) + 80(4) + 90(7) + 100(4) + 110(3) = 90 Km/h 3+4+7+4+3 Mediana = 90 Km/h 90=90=90 Moda = 90 Km/h
4
3
3
2 0 70 80 90 100 110
Velocidade (Km/h)
Quantidade de veículos
Quando a Média, Mediana e Moda não se coincidem, chamamos a distribuição dos dados de assimétrica. Assimétrica à esquerda (ou negativa) Média < mediana < moda Neste tipo de distribuição, a média, mediana e a moda estarão Resultados dos registros 12 de um radar Mediana aproximadamente conforme gráfico ao lado. A média será menor que a mediana e a moda. O cálculo abaixo confirma a afirmativa: Moda 10 9 Média 8 Média = 70(1) + 80(3) + 90(6) + 100(9) + 110(2) = 94 Km/h 6 1+3+6+9+2 6 4 3 Mediana = 100 Km/h 2 Me Md Mo 2 1 94 < 100 ≤ 100 0 Moda = 100 Km/h 70 80 90 100 110 Velocidade (Km/h)
Assimétrica à direita (ou positiva)
Média > mediana > moda
10 Mediana Moda 8
Média = 70(2) + 80(9) + 90(6) + 100(3) + 110(1) = 86Km/h 2+9+6+3+1 Mediana = 80 Km/h Me Mo Md 86 > 80 ≥ 80 Moda = 80 Km/h
Média
9 6
6 4 2
Neste tipo de distribuição, a média, mediana e a moda estarão aproximadamente conforme gráfico ao lado. A média será maior que a mediana e a moda. O cálculo abaixo confirma a afirmativa:
Resultados dos registros de um radar
12 Quantidade de veículos
3 2 1
0
70 80 90 100 110
Velocidade (Km/h)
Uanderson Rebula de Oliveira
Estatística
- 34 -
3.2 MEDIDAS DE ORDENAMENTO (ou separatrizes). São medidas que "separam" o conjunto de dados em um certo número de partes iguais. As medidas usadas são a Mediana, o Quartil, Decil e o Percentil. A mediana já conhecemos. Estudaremos as outras medidas.
QUARTIL (4 PARTES)
0%
Divide um conjunto de dados em quatro partes iguais. Precisamos, portanto, de 3 quartis (Q1 , Q2 e Q3 ) para dividir a série em quatro partes iguais.
25%
50%
75%
100%
|----------|---------|----------|---------| Q1
Q2
Q3
2º quartil Coincide com a mediana.
1º quartil deixa 25% dos dados abaixo dele.
3º quartil deixa 75% dos dados abaixo dele.
O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas "3 medianas" em uma mesma série. Determine Q1, Q2 e Q3. dos salários de 9 empregados da uma empresa, abaixo 1º 2º Q1 3º 4º 5º 6º 7º Q3 8º 9º
$500 $550 | $600 $650 $700 $575 Q1 será a média da 2ª e 3ª posição
$750 $800 | $850 $900
Q2 Md
$825 Q3 será a média da 7ª e 8ª posição
=
1 5 4 4
1º quartil Q1 =
Fa 4 8 16 24 30 45
= 11,5 ≈ 12ª posição = 95Km/h
Interpretação: 25% dos veículos tiveram velocidades abaixo de 95 Km/h
← 3º quartil
) =(
1 5 4 4
3º quartil Q3 = (
3
← 1º quartil
1 n 4
f Velocidades 85 4 90 4 95 8 100 8 105 6 110 15 f=45
3
i 1 2 3 4 5 6
1 4 n
QUARTIL de uma distribuição de freqüência SEM INTERVALOS DE CLASSE
) = 34,5 ≈ 35ª posição =110Km/h
Interpretação: 75% dos veículos tiveram velocidades abaixo de 110 Km/h
QUARTIL de uma distribuição de freqüência COM INTERVALOS DE CLASSE Usa‐se a mesma técnica do cálculo da mediana, bastando adaptar a sua equação, conforme mostrado abaixo.
por
n 3 4
n 2
por
3º quartil
n 4
n 2
1º quartil
Acumule Fa e ache as posições Q1 e Q3.
i Velocidades f 1 4 70 80 2 4 80 90 3 90 100 8 4 100 110 8 5 110 120 6 6 120 130 10 f=40
1º quartil Q1
Fa 4 8 16 24 30 40
← 1º quartil ← 3º quartil
3º quartil Q3
Independente se n é ímpar ou par usa‐se somente a Independente se n é ímpar ou par usa‐se somente a n
40
3n
3*40
equação /4. Então, /4 = 10. O Q1 está na 10ª posição equação /4. Então, /4 = 30. O Q3 está na 30ª e será algum valor da classe Q1 90 100. Logo: posição e será algum valor da classe Q3 110 120. Logo:
n 4 ‐ Fa ant * h Q1 l inf f l inf = limite inferior da classe Q1 Faant = Fa da classe anterior H = amplitude intervalo classe f = freqüência da classe Q1
Resolvendo a equação:
40 4 ‐ 8 *10 Q1 90 8 Q1 = 92,5 Km/h
Interpretação: aproximadamente 25% dos veículos registrados tiveram velocidades abaixo de 92,5 Km/h
Uanderson Rebula de Oliveira
3n 4 ‐ Fa ant * h Q3 l inf f l inf = limite inferior classe Q3 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe Q3
Resolvendo a equação:
3*40 4 ‐ 24 *10 Q3 110 6 Q3 = 120 Km/h
Interpretação: aproximadamente 75% dos veículos registrados tiveram velocidades abaixo de 120 Km/h
Estatística
- 35 DECIL (10 PARTES)
0%
Divide um conjunto de dados em dez partes iguais, como mostrado ao lado.
10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
|---|---|---|---|---|---|---|---|---|---| D1
DECIL de uma distribuição de freqüência Usa‐se a mesma técnica do cálculo da mediana, bastando adaptar a sua equação, conforme abaixo: n 0 D 1
n 2
por
D = decil procurado n = quantidade de dados
Acumule Fa e ache as posições.
Ache o 3º Decil (D3) da distribuição de frequência Dn
3*40
Usando /10 temos /10 = 12. O D3 está na 12ª posição e será algum valor da classe D3 90 100:
Dn 10 ‐ Fa ant * h D3 l inf f l inf = limite inferior da classe D4 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe D4
Resolvendo a equação:
3* 40 10 ‐ 8 *10 D3 90 8 D3 = 95 Km/h
Interpretação: aproximadamente 30% dos veículos registrados tiveram velocidades abaixo de 95 Km/h
D2
D3
D4
D5
D6
Coincide com a mediana.
i Velocidades f 1 4 70 80 2 4 80 90 3 90 100 8 4 100 110 8 5 110 120 6 6 120 130 10 f=40
Fa 4 8 16 24 30 40
D7
D8
D9
← Classe D3
← Classe D8
Ache o 8º Decil (D8) da distribuição de frequência Dn
8*40
Usando a equação /10 temos /10 = 32. O D8 está na 32ª posição e será algum valor da classe D8 120 130:
Dn 10 ‐ Fa ant * h D8 l inf f l inf = limite inferior da classe D8 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe D8
Resolvendo a equação:
8*40 10 ‐ 30 *10 D8 120 10 D8 = 122 Km/h
Interpretação: aproximadamente 80% dos veículos registrados tiveram velocidades abaixo de 122 Km/h.
PERCENTIL (100 PARTES)
0% 5% 10% ... 17% ... 33% ... 42% 50% 57% 63% 70% 80% 93% 100%
Divide um conjunto de dados em cem partes iguais, como mostrado ao lado.
|-|-|---|---|---|---|--|--|--|---|---|---| P5 P1 0 P17 P33 P42 P50 P57 P63 P70 P80 P93
PERCENTIL de uma distribuição de freqüência
por
0 n 0 P 1
n 2
Usa‐se a mesma técnica do cálculo da mediana, bastando adaptar a sua equação, conforme abaixo. P = percentil procurado n = quantidade de dados
Acumule Fa e ache as posições.
Ache o 27º Percentil (P27) da distribuição de frequência Pn
27*40
Usando /100 temos /100 = 10,8 ≈ 11. O P27 está na 11ª posição e será algum valor da classe P27 90 100:
Pn 100 ‐ Fa ant * h P27 l inf f l inf = limite inferior classe P27 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe P27
Resolvendo a equação: 27* 40 100 ‐ 8 * 10 P27 90 8
P27 = 93,5 Km/h
Interpretação: aproximadamente 27% dos veículos registrados tiveram velocidades abaixo de 93,5 Km/h.
Uanderson Rebula de Oliveira
i Velocidades f 1 4 70 80 2 4 80 90 3 90 100 8 4 100 110 8 5 110 120 6 6 120 130 10 f=40
Fa 4 8 16 24 30 40
← Classe P27 ← Classe P72
Ache o 72º Percentil (P72) da distribuição de frequência Pn
72*40
Usando /100 temos /100 = 28,8 ≈ 29. O P72 está na 29ª posição e será algum valor da classe P29 110 120:
Pn 100 ‐ Fa ant * h P72 l inf f l inf = limite inferior classe P72 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe P72
Resolvendo a equação: 72* 40 100 ‐ 24 *10 D8 110 6
P72 = 118 Km/h
Interpretação: aproximadamente 72% dos veículos registrados tiveram velocidades abaixo de 118 Km/h.
Estatística
- 36 3.3 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO) INTRODUÇÃO O termo “variação” sugere tornar vário ou diverso; alterar, diversificar; mudar; ser inconstante; não ser conforme, discrepar. Na maioria dos casos existirá variação em um conjunto de dados, independente da característica que você esteja medindo, pois nem todos os indivíduos terão o mesmo exato valor para todas as variáveis.
EXEMPLO Durante o ano letivo a Média das notas de João, Mário, Maria e José foi 7,0. Se considerarmos apenas a Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa‐se que as notas são muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante: Média das notas de João 9,5
10,0 6,0
6,0 4,0
Média das notas de Mário
7,0
8,0
3,5
2,0
7,0
7,0
7,0
4,0
0,0
Média das notas de Maria 6,5
6,5
7,0
1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
Pequena variação a partir da Média
7,5
Média das notas de José 9,5 10,0
7,5
6,0 4,0
7,0
8,0 Notas
Notas
7,0
6,0
1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
8,0
7,0
2,0
0,0
10,0
Sem variação a partir da Média
10,0
9,0 Notas
Notas
8,0
Grande variação a partir da Média
8,5 6,0
6,0 4,0
Grande variação a partir da Média
4,0
2,0
2,0
0,0
0,0 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
Diante deste contexto, podemos questionar: qual o aluno é mais estável? Qual teve melhor desempenho? Qual o aluno com pior desempenho? Notadamente o aluno de melhor desempenho é o Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média. Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média. Neste capítulo vamos desenvolver maneiras específicas de realmente medirmos a variação, de modo que possamos usar números específicos em lugar de julgamento subjetivo. Outros exemplos de variações:
Os preços das casas variam de casa para casa, de ano para ano e de estado para estado. Os preços de um produto variam de supermercado para supermercado. O tempo que você leva para chegar ao trabalho varia dia a dia. O tamanho das peças produzidas em uma empresa também varia. A renda familiar varia de família para família, de país para país e de ano para ano. Os resultados das partidas de futebol, de temporada para temporada, variam. As notas que você tira nas provas, não diferente, também variam. Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês.
Estudaremos alguns tipos de medidas de variação: variância, desvio padrão e coeficiente de variação.
Uanderson Rebula de Oliveira
Estatística
- 37 VARIÂNCIA E DESVIO PADRÃO (amostral) São medidas que representam “um valor médio de variação” em torno da média. O desvio padrão é um modo que se usa para medir a variabilidade entre os números em um conjunto de dados. Assim como o termo sugere, um desvio padrão é um padrão (ou seja, algo típico) de desvio (ou distância) da média. O desvio padrão é uma estatística importante, mas, frequentemente, é omitida quando os resultados são relatados. Sem ele, você está recebendo apenas uma parte da história sobre os dados. Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e o outro em um balde de água fervendo. O homem dizia que, na média, ele estava se sentindo ótimo! Mas imagine a variabilidade da temperatura para cada um dos pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a variedade de preços de casas com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários pode não representar o que realmente está se passando em sua empresa se os salários forem extremamente discrepantes.
Entendendo a Variância e o Desvio Padrão Desvios em torno da Média das notas de João
9,5
10,0
7,0
Notas
8,0
6,0
‐3,5
9,0
+ 2,5 +2,0
‐1,0 6,0
4,0 2,0
3,5
0,0 1º Bim
2º Bim
Média Bimestres
3º Bim
4º Bim
Calculando a Variância e o Desvio Padrão O problema da soma dos desvios foi resolvido pelos matemáticos: basta elevar cada desvio ao quadrado antes de somá‐los. Um número ao quadrado é sempre positivo, portanto a soma não se anula mais, e a média dos desvios ao quadrado pode ser calculada:
Notas Média Desvios Desvios elevado ao (x) ( x ) (x ‐ x ) quadrado (x ‐ x )2 3,5 7,0 ‐3,5 (‐3,5)2 = 12,25 6,0 7,0 ‐1,0 (‐1,0)2 = 1 9,5 7,0 2,5 (2,5)2 = 6,25 9,0 7,0 2,0 (2,0)2 = 4 n=4 ‐ =0 =23,5
Variância amostral No gráfico percebemos que o desvio determina o quanto Agora, podemos calcular a média dos quadrados dos 2 cada elemento do conjunto de dados se distancia da desvios, chamada de Variância, representada por S : média 7,0. No 1º Bim. faltam ‐3,5 para se chegar a Média 2 23,5 = 7,8 S2 = ( x x) → e no 2º Bim. ‐1,0. Já nos 3º e 4º Bim. temos +2,5 e +2,0 4 ‐ 1 acima da média, respectivamente. Transpondo essas n ‐ 1 informações para uma tabela, temos:
Notas (x) 3,5 6,0 9,5 9,0 ‐
Média ( x ) 7,0 7,0 7,0 7,0 ‐
Desvios (x ‐ x ) ‐3,5 ‐1,0 2,5 2,0 =0
A divisão por n−1 aparece por fornecer um melhor resultado do que a divisão por n.
Desvio padrão amostral Mas, se elevamos os desvios ao quadrado para poder calcular sua média, não seria correto que agora fizéssemos a raiz quadrada dessa média, para desfazer a potenciação? Sim, e o valor dessa raiz é chamado Desvio padrão, representado por S:
Desvio padrão →
S = 7,8 = 2,8
Interpretação: O desvio padrão indica que a maioria das notas de
Perceba que a soma dos desvios é igual a zero. Esta João está concentrada dentro dos limites de 2,8 em torno da característica não é exclusiva deste exemplo. Ela sempre média 7,0. Ou seja, se concentrando entre 4,2 e 9,8: ocorre e prende‐se ao fato de que a média é o ponto de 4,2 ‐2,8 +2,8 9,8 equilíbrio em um conjunto de dados. Como os desvios indicam o grau de variação dos valores em relação à média, seria interessante poder encontrar um único número que o representasse. Algo como a média dos desvios. Mas, para fazer essa média, precisamos somar os desvios e acabamos de ver que essa soma é sempre igual a zero.
7,0 Equação da Variância e Desvio padrão Podemos concluir, então, o uso das equações:
da Variância
do Desvio padrão
S2 = ( x x )
2
S =
S2
n ‐ 1
Uanderson Rebula de Oliveira
Estatística
- 38 Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo. Notas de Maria: 6,5 6,5 7,5 7,5 1º Calcular a Média
x x
S2 =
( x x)
2
S =
n 1
n
3º Calcular o Desvio padrão
2º Calcular a Variância
S2
x = 6,5+6,5+7,5+7,5 = 7,0 4
S2 = (6,5 – 7,0)2 + (6,5 – 7,0)2 + (7,5 – 7,0)2 + (7,5 – 7,0)2 = 0,33 4 – 1
→
0 , 33
S = 0,5
6,5 ‐0,5 +0,5 7,5
Interpretação: O resultado indica que a maioria das notas de Maria está concentrada dentro dos limites de 0,5 em torno da Média 7,0. Ou seja, se concentrando entre 6,5 e 7,5.
7,0
Notas de José: 4,0 9,5 8,5 6,0 1º Calcular a Média
x x
S2 =
( x x)
2
S =
n 1
n
3º Calcular o Desvio padrão
2º Calcular a Variância
x = 4,0+9,5+8,5+6,5 = 7,0 4
S2 = (4,0 – 7,0)2 + (9,5 – 7,0)2 + (8,5 – 7,0)2 + (6,0 – 7,0)2 = 6,16 4 ‐ 1
S2
→
6 ,16
S = 2,5
4,5 ‐2,5 +2,5 9,5
Interpretação: O resultado indica que a maioria das notas de Maria está concentrada dentro dos limites de 2,5 em torno da Média 7,0. Ou seja, se concentrando entre 4,5 e 9,5.
7,0
Notas de Mário: 7,0 7,0 7,0 7,0 1º Calcular a Média
x x
S2 =
( x x)
2
S =
n 1
n
3º Calcular o Desvio padrão
2º Calcular a Variância
S2
→ S = 0
x = 7,0+7,0+7,0+7,0 = 7,0 4
S2 = (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 = 0 4 ‐ 1
O resultado indica que todas as notas de Mário estão dentro dos limites de concentrando exatamente na média 7,0. Portanto, sem variação.
0 em torno da Média 7,0. Ou seja, se
NOTAS SOBRE O DESVIO PADRÃO. O desvio padrão é desvios sempre um valor que está na mesma unidade dos dados originais. Um desvio padrão pequeno, basicamente, significa que os valores do conjunto de dados estão, na média, próximos do centro desse conjunto, enquanto um desvio padrão grande significa que os valores do conjunto de dados estão, na média, mais afastados do média centro. Então, quanto mais espalhados ou dispersos forem os dados, maior será o desvio padrão e, quanto mais concentrados ou homogêneos forem os dados, menor será o desvio padrão. Se os Desvio padrão valores forem iguais, ou seja, sem variação, o desvio padrão será zero. Um desvio padrão pequeno pode ser um bom objetivo em determinadas situações, onde os resultados são restritos, como exemplo, na produção e no controle de qualidade de uma indústria. Uma determinada peça de carro que deve ter centímetros de diâmetro para encaixar perfeitamente não pode apresentar um desvio padrão grande, nesse caso, significaria que acabariam sendo jogadas fora, pois ou não se encaixariam adequadamente ou os carros teriam problemas.
Observe que o desvio padrão das notas de João indica que estão concentradas dentro dos limites de 2,8 em torno da média 7,0. Ou seja, se concentrando entre 4,2 e 9,8. Isto representa um desvio padrão grande.
Uanderson Rebula de Oliveira
Estatística
- 39 COEFICIENTE DE VARIAÇÃO - CV É a medida relativa de variação que é sempre expressa sob a forma de porcentagem (%). Em algumas situações, podemos estar interessados em uma estatística que indique qual é o tamanho do desvio padrão em relação à média. A melhor forma de representá‐la é através do coeficiente de variação por ser expressa na forma de porcentagem.
O coeficiente de variação, representado Exemplo: Considerando a Média 7,0 de João com Desvio padrão de 2,8, por Cv, é calculado da seguinte maneira: temos:
Cv = S x 100 Cv = 2,8 x 100 → 40% 7,0 x
Cv = S x 100 x
O resultado indica que a Média 7,0 de João teve um Desvio padrão em torno de 40%.
Ou seja: Cv = Desvio padrão x 100 Média
Fazendo a Distribuição de Variabilidade das notas de João, Maria, José e Mário, temos: Desvio padrão (S) Cv (%) Cálculo do Cv (%) Assim, podemos concluir que o Alunos Média ( x ) 2,8 desempenho dos alunos será: 2,8 João 7,0 40% → /7,0 x 100 1º ‐ Mário 0,5 0,5 Maria 7,0 7% → /7,0 x 100 2º ‐ Maria 2,5 2,5 José 7,0 36% → /7,0 x 100 3º ‐ José 0 4º ‐ João Mário 7,0 0% ‐ Interpretação do Cv: Cv < 15% = pouca variação | 15% < Cv < 30% = moderada variação | Cv > 30% = muita variação
DESVIO PADRÃO DE DISTRIBUIÇÃO DE FREQUÊNCIA Quando não temos a lista original dos dados, da mesma forma que a média, podemos encontrar o desvio padrão aproximado de uma distribuição de freqüência. Neste caso, usamos a equação do desvio padrão estudado, adicionado de f, como abaixo.
Desvio padrão SEM INTERVALO DE CLASSE i 1 2 3 4 5 6
f
Velocidade (Km/h)
60 x 65 70 75 80 85
4 6 11 8 7 4 f=40
*
(xi – x ) 2 f
f . xi
2
= 240 390 770 600 560 340 (f.xi) = 2.900
(60 – 72,5) * 4 = 625 (65 – 72,5)2 * 6 = 337 (70 – 72,5)2 * 11 = 69 (75 – 72,5)2 * 8 = 50 (80 – 72,5)2 * 7 = 394 (85 – 72,5)2 * 4 = 625 = 2.100
Cálculo da média
Cálculo do desvio padrão
x = (f.x) → 2.900 = 72,5 Km/h
S=
f 40
(x x)2 * f f 1
→
2100 = 7,3 km/h 40 ‐ 1
Desvio padrão COM INTERVALO DE CLASSE i
Velocidade (Km/h)
1 2 3 4 5 6
70 80 80 90 90 100 100 110 110 120 120 130
f
xi
f . xi
4 x 4 8 8 6 10 f=40
75 85 95 105 115 125 ‐
= 300 340 760 840 690 1250 (f.xi) = 4180
*
(xi – x ) 2 f (75 – 104,5)2 * 4 = 3.481 (85 – 104,5)2 * 4 = 1.521 (95 – 104,5)2 * 8 = 722 (105 – 104,5)2 * 8 = 2 (115 – 104,5)2 * 6 = 661 (125 – 104,5)2 * 10 = 4.202 = 10.589
Cálculo da média
x = (f.x) → 4180 = 104,5 Km/h f 40
Uanderson Rebula de Oliveira
Cálculo do desvio padrão S=
(x x)2 * f f 1
→
10.589 = 16,47 km/h 40 ‐ 1
Estatística
- 40 Cálculo do Desvio padrão a partir de um Histograma em classes R e s u l t a d o s d o s r e g i s t r o s d e u m r a d a r
Quantidade de veículos
12
10
10 (4*75)+(4*85) ...
8 6
4
4 2
x
+
8
Primeiramente, você deve calcular a média:
8 6
4
(75*4) + (85*4) + ... + (125*10) = 104,5 Km/h 4 + 4 + 8 + ... + 10
x
0
75 85 95 105 115 125 70 80 90 100 110 120 130 Velocidade (Km/h)
S=
(x x)2 * f f 1
Depois, calcule o Desvio padrão, observando os dados circulados no gráfico acima: (75‐104,5)2 * 4 + (85‐104,5)2 * 4 + ... + (125‐104,5)2 * 10 = 16,47Km/h 40‐1
Uanderson Rebula de Oliveira
Estatística
- 41 3.4 MEDIDAS DE ASSIMETRIA E CURTOSE. ASSIMETRIA.
A assimetria já foi estudada na “Relação entre média, mediana e moda”, quando vimos que a distribuição é simétrica quando a média, mediana e moda se coincidem; assimétrica à direita quando a média é maior que a mediana e a moda; assimétrica à esquerda quando a média é menor que a mediana e a moda. Este raciocínio é importante pois é a base para o estudo de probabilidades e inferência.
A assimetria mede o grau de afastamento de uma distribuição em relação ao eixo central, geralmente representado pela média. Resultados dos registros de um radar
Quantidade de veículos
10 8
7
Média Mediana Moda
Assimétrica à direita (positiva)
6 4
4
.
Grau de afastamento Simétrica
4
3
3
2
Média
0 70
80
90
100
110
Importante Sempre que a curva da distribuição se afastar do eixo central, no caso, da média, será considerada como tendo um certo grau de afastamento, chamado de assimetria da distribuição. Este afastamento pode acontecer do lado esquerdo ou do lado direito da distribuição, chamado de assimetria negativa ou positiva, respectivamente.
Velocidade (Km/h)
Positiva
Negativa
Resultados dos registros 12 Mediana de um radar 10 Moda 9 Média 8 6
6 4 2
Resultados dos registros de um radar
12 Quantidade de veículos
Quantidade de veículos
Assimétrica à esquerda (negativa)
3 2 1
0
10 8
6
6 4 2
Mediana Moda
9
Média
3 2 1
0
70 80 90 100 110
70 80
Velocidade (Km/h)
90 100 110
x ‐ Mo
Velocidade (Km/h)
Coeficiente de Assimetria (Coeficiente de Pearson)
Mo = moda S = desvio padrão
Velocidade (Km/h)
1 2 3 4 5
Esta distribuição tem: ‐ média de 83,8 Km/h ‐ moda de 80Km/h ‐ desvio padrão de 5,2 Km/h. Qual o coeficiente de assimetria?
f
75 6 80 30 85 24 90 12 95 6 f=78
(
Se As = 0, será simétrica Se As < 0, será assimétrica esquerda (negativa) Se As > 0, será assimétrica direita (positiva)
As 83,8 80 = 0,730 5,2
Velocidade (Km/h)
1 2 3 4 5
f
75 10 80 14 85 20 90 23 95 11 f=78
d M
x = média
x S
3 s A
o M S
x
s A
O grau de assimetria de uma distribuição de freqüências pode ser calculado por meio do Coeficiente de Pearson, abaixo:
)
Você pode usar esta equação também.
Esta distribuição tem: ‐ média de 85,7 Km/h ‐ moda de 90Km/h ‐ desvio padrão de 6,2 Km/h. Qual o coeficiente de assimetria?
As 85,7 90 = ‐ 0,693 6,2
Interpretação: a distribuição é assimétrica positiva (à direita) e Interpretação: a distribuição é assimétrica negativa (à moderada, pois está entre 0,15 e 1. (veja próxima pág. o motivo) esquerda) e moderada, pois está entre ‐ 0,15 e ‐1. Ao construir o histograma podemos comparar com uma Ao construir o histograma podemos comparar com uma distribuição simétrica. Perceba o quanto a média desta distribuição simétrica. Perceba o quanto a média desta distribuição se afasta do eixo central, simétrico. distribuição se afasta do eixo central, simétrico. Grau de afastamento 0,730
Quantidade veículos
Resultados dos registros de um radar
35 30 25 20 15 10 5 0
30 24
12 6
75
6
80
85
90 95
Velocidade (Km/h)
Uanderson Rebula de Oliveira
Grau de afastamento ‐0,693
Result ados dos regist ros de um radar
35 30 25 20 15 10 5 0
23
20 14
11
10
75
80
85
90 95
Velocidade (Km/h)
Estatística
- 42 Interpretação da assimetria. Quanto mais As se afasta de zero, mais assimétrica será a distribuição, podendo ser fraca (se situada até |0,15|), moderada (se situada de |0,15| a |1|) ou forte (se maior que |1|). Forte, nesse caso, não é algo necessariamente bom, pois indica que a distribuição está fortemente (muito) distante do eixo central, no caso, da média. Portanto, para efeitos de inferência estatística, melhor é que a As se aproxime de zero, no caso, de uma distribuição simétrica. .
Simétrica
Assimétrica à direita (positiva)
Assimétrica à esquerda (negativa)
Média forte
moderada 1
Fraca 0,15
Fraca 0
moderada ‐0,15
forte ‐1
A barra | | indica, matematicamente, que o sinal negativo é desprezado.
CURTOSE. A análise da Curtose também é importante, pois é a base do estudo de probabilidades e inferência estatística. A curtose mede o grau de achatamento ou alongamento de uma distribuição, em relação a uma distribuição padrão, denominada curva normal (a) Curvas alongadas, com alta curtose, são chamadas de leptocúrticas. Observe que tem um pico relativamente alto.
(a) Leptocúrticas (b) Mesocúrticas (c) Platicúrticas
(b) Curvas nem alongadas nem achatadas e de curtose mediana são chamadas de mesocúrticas. (c) Curvas achatadas apresentam menor curtose e são denominadas platicúrticas. Observe que tem o topo achatado.
Coeficiente de Curtose
0
1
2
(
Q 1 P 0 3 9 Q P
C
O grau de curtose de uma distribuição de freqüências pode ser calculado por meio da equação abaixo:
)
Q1 = 1º quartil Q3 = 3º quartil P90 = 90º percentil P10 = 10º percentil
Relativamente à curva normal: Se C < 0, 263 → curva leptocúr ca Se C = 0, 263 → curva mesocúr ca Se C > 0, 263 → curva pla cúr ca
Esta equação é denominada Coeficiente percentílico de curtose
Portanto, para encontrar o coeficiente de curtose é necessário conhecimento e aplicação das medidas de ordenamento, no caso, do quartil e percentil. Neste exemplo não calcularemos essas medidas uma vez que já estudamos no título “3.2 Medidas de ordenamento”. Vamos direto ao assunto. Exemplo Calcule o coeficiente de curtose e informe o seu tipo.
(
0 8 6 2 1
→
2
)
5 , 2 9 0 2 1
C
0 1
(
1
Esta distribuição tem: Q1 = 92,5 Km/h Q3 = 120 Km/h P90 = 126 Km/h P10 = 80 Km/h
Q P 0 3 9 Q P
Fa 4 8 16 24 30 40
2
Velocidades f 4 70 80 4 80 90 8 90 100 8 100 110 6 110 120 10 120 130 f=40
C
i 1 2 3 4 5 6
)
= 0,298
Como 0,298 > 0,263, dizemos que a curva é platicúrtica
É importante ressaltar que o conhecimento e aplicação da Assimetria e Curtose será complementado com o estudo da distribuição normal, base da inferência estatística. Somente com todos esses conceitos estudados é que entenderemos realmente a assimetria e curtose.
Uanderson Rebula de Oliveira
Estatística
- 43 -
4 CORRELAÇÃO E REGRESSÃO
Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo “Existe relação entre o número de horas de estudo e as notas obtidas?”. Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz-se que as mesmas estão correlacionadas.
Uanderson Rebula de Oliveira
Estatística
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
- 44 4.1 CORRELAÇÃO LINEAR SIMPLES INTRODUÇÃO Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo: Variável x Existe relação entre o número de horas de estudo... Quanto maior for a produção... Existe relação entre o tabagismo... Quanto maior a idade de uma casa... Existe relação entre o número de horas de treino... Existe relação entre o nível de pressão arterial...
Variável y ...e as notas obtidas? ...maior será o custo total? ...e a incidência de câncer? ...menor será seu preço de venda? ...e os gols obtidos em uma partida de futebol? ...com a idade das pessoas?
Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz‐se que as mesmas estão correlacionadas.
Correlação linear simples é uma técnica usada para analisar a relação entre duas variáveis. DIAGRAMA DE DISPERSÃO EXEMPLO 1. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão
Número de horas de estudo versus notas obtidas
A B C D E F G H
X
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5
10 9
Ponto de interseção (Aluno D)
8 Y (Notas obti das )
Aluno
H o r as estud ad as ver sus Notas o b tid as
7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
8
9
x (Horas de es tudo)
FONTE: dados fictícios
Representando os pares ordenados (x,y), obtemos diversos pontos grafados que denominamos diagrama de dispersão. Para construí‐lo, basta pontuar a interseção de cada eixo x,y. Por exemplo, o aluno D estudou 4h (eixo x) e obteve a nota 5,0 (eixo y). Observe no diagrama uma linha vermelha pontilhada e o ponto de interseção. Esse diagrama nos fornece uma idéia grosseira, porém útil, da correlação existente. Ao observar o diagrama como um todo, podemos afirmar que existe uma correlação entre as variáveis x,y pois, quando x cresce, y também tende a crescer.
CORRELAÇÃO LINEAR
Podemos imaginar que, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Dizemos então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear.
9 8 Y (Notas obti das )
Os pontos grafados, vistos em conjunto, formam uma elipse (trajetória, distribuição dos pontos) em diagonal.
H o r as estud ad as ver sus No tas o b tid as 10
7 6 5 4
Reta imaginária
3 2 1 0 0
1
2
3
4
5
6
7
8
x (Horas de es tudo)
Uanderson Rebula de Oliveira
Estatística
9
- 45 Assim, uma correlação é: Uma direção para cima sugere que se: ‐ x aumenta, ‐ y tende a aumentar.
Uma direção para baixo sugere que se: ‐ x aumenta, ‐ y tende a diminuir.
EXEMPLO 2. Consideremos na tabela abaixo os meses de Jan a Set, o aumento mensal do preço das refeições (x) e a média do número de clientes ao mês (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão
Aumento do preço da refeição versus média de clientes por mês
Jan Fev Mar Abr Jun Jul Ago Set
Y
180
(preço refeição)
(média clientes)
160
R$ 5,90 R$ 8,50 R$ 10,90 R$ 13,20 R$ 15,90 R$ 18,50 R$ 21,90 R$ 24,90
154 139 133 128 115 99 80 67
Y (médi a de c l i entes p/di a)
Mês
Aumento do p r eço da r efeição ver su s média clientes p/dia
X
140 120 100 80 60 40 20 0 0,00
5,00
10,00
15,00
20,00
25,00
30,00
x ( P reç o ref ei ç ão)
FONTE: dados fictícios
COEFICIENTE DE CORRELAÇÃO DE PEARSON Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo (pessoal). Uma maneira mais precisa de se medir o tipo e o grau de uma correlação linear entre duas variáveis é calcular o coeficiente de correlação.
Coeficiente de correlação é uma medida do grau de relação entre duas variáveis. Os estatísticos criaram a equação ao lado para obter o grau de correlação. Na verdade é chamado de coeficiente de Pearson, em homenagem ao estatístico inglês Karl Pearson (1857‐1936).
Onde: r = coeficiente de correlação e n = tamanho da amostra
Uanderson Rebula de Oliveira
Estatística
- 46 EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule o coeficiente de correlação r. Cálculo do r: Número de horas de estudo versus notas obtidas
Aluno
X
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h =39,5
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5 =48,5
A B C D E F G H
X2
Y2
XY
64 81 72 4 9 6 9 16 12 16 25 20 20,25 36 27 36 49 42 25 49 35 49 56,25 52,5 =223,25 =321,25 =266,5
Interpretação: O coeficiente de correlação r = 0,975 indica que o grau de relação entre as duas variáveis é “Muito forte”, além de ser “Positiva” (pois x aumenta, y também aumenta). Então, podemos afirmar que, conforme aumentam as horas de estudo, as notas obtidas também aumentam. Veja mais detalhes abaixo: O grau de relação r pode variar de -1 até +1, conforme ilustrado abaixo: Perfeita
‐1
Nula
‐0,9
‐0,6
‐0,3
0
Perfeita
0,3
+1
0,6
0,9
Muito forte
Forte
Fraca
Correlação linear NEGATIVA ( x aumenta, y diminui )
y
r = ‐ 0,813
x
Muito Fraca Muito Fraca Fraca
r = 0
Forte
Muito forte
Correlação linear POSITIVA ( x aumenta, y aumenta )
y
r = 0,824
x
r=0,975 Positiva e “Muito forte”
Notas:
Correlação e causalidade. O fato de duas variáveis serem fortemente correlacionadas não implica uma relação de causa e efeito entre elas. Um estudo mais profundo é usualmente necessário para determinar se há uma relação causal entre as variáveis. As seguintes questões devem ser consideradas ao pesquisador: ‐ Há uma relação direta de causa e efeito entre as variáveis? ‐ É possível que a relação entre duas variáveis seja uma coincidência? Mais informações em Larson, 2010, capítulo 9.
Uanderson Rebula de Oliveira
Estatística
- 47 4.2 REGRESSÃO LINEAR SIMPLES INTRODUÇÃO Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é determinar a equação da linha que melhor modela os pontos grafados. Essa linha é chamada de linha de regressão (ou linha de melhor ajuste). Portanto, a análise de regressão linear simples tem por objetivo obter a equação matemática do ajuste da reta que representa o melhor relacionamento numérico linear entre as duas variáveis em estudo. A Regressão Linear determina o ajuste da reta, chamada de “Linha de Regressão”
H o r as estud ad as ver sus No tas o b tid as 10 9 Y (Notas obti das )
8 7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
8
9
x (Horas de es tudo)
Ao se construir um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos grafados. Para tanto, devemos calcular o “ajustamento da reta aos pontos”. Eis alguns exemplos de diagramas de dispersão com o ajustamento da reta aos pontos:
AJUSTAMENTO DA RETA AOS PONTOS GRAFADOS Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguintes equações: 1º ‐ Calcular o Coeficiente angular a:
2º ‐ Calcular o Coeficiente linear b:
(dá a inclinação da reta)
(ordena o ponto em que a reta corta o eixo)
3º ‐ Calcular o ajustamento da reta :
b = ‐ a
Onde: a = Coeficiente angular n = tamanho da amostra
Uanderson Rebula de Oliveira
Onde: b = Coeficiente linear = Média de y a = Coeficiente angular
= Média de x
= aX + b
Onde:
= Ajustamento da reta a = Coeficiente angular X = É um valor arbitrário. (Ex.: nº 5) b = Coeficiente linear
Estatística
- 48 EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule a reta ajustada nos pontos grafados. Número de horas de estudo versus notas obtidas
Aluno A B C D E F G H
1º ‐ Calcular o Coeficiente angular a:
X
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5
=39,5
=48,5
X2
XY
64 4 9 16 20,25 36 25 49
72 6 12 20 27 42 35 52,5
=223,25 =266,5
2º ‐ Calcular o Coeficiente linear b: b = ‐ a
Então: b = 6,063 – 0,958 x 4,937 b = 1,33
8 a = 0,958
3º ‐ Calcular o ajustamento da reta : = aX + b
Calculando as Médias e , temos: = 48,5 = 6,063 8
a = 266,5 ‐ (39,5) . (48,5) 8 223,25 ‐ (39,5)2
= 0,958 . 5 + 1,33 = 39,5 = 4,937 8
= 6,12 Nota: 5 é um valor arbitrário.
Para traçar a reta no diagrama de dispersão, basta determinar os pontos b, e o arbitrário:
Note que os pontos grafados estão muito próximos da reta. Isso significa que existe uma correlação muito forte entre as duas variáveis em estudo
Uanderson Rebula de Oliveira
Estatística
- 49 -
REFERÊNCIAS BIBLIOGRÁFICAS ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2 ed. São Paulo: Cengage Learning, 2009. 597 p. BRUNI, Adriano Leal. Estatística para concursos. São Paulo: Atlas, 2008. 197p. COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 4 ed. São Paulo: Harbra, 2005. 399 p. CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p. FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003, 320 p. GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova abordagem – volume único. São Paulo: FTD, 2002. 712 p. HAZZAN, Samuel. Fundamentos da matemática elementar: Matemática financeira, comercial e estatística descritiva. Volume 11. 1 ed. São Paulo: Atual editora, 2004. 230p. HELP! Sistema de consulta interativa. Matemática. Rio de Janeiro: O globo, 1997. 319 p. Instituto Brasileiro de Geografia e Estatística – IBGE. A instituição. Disponível <http://www.ibge.gov.br/home/disseminacao/eventos/missao/default.shtm>. Acesso em 06 abr 2010.
em
LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p. LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p. LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p. LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999. 174 p. MANDIN, Daniel. Estatística descomplicada. 9 ed. Brasília: Vestcon, 2002. 227 p. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de Janeiro: LTC, 2003. 465 p. OLIVEIRA, Uanderson Rebula de. Ergonomia, higiene e segurança do trabalho. Resende-RJ: Apostila. Universidade Estácio de Sá, 2009. 199 p. Resumão – estatística. 2 ed. São Paulo: Barros, fischer & Associados, novembro 2006. 6 p. RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p. SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2 ed. São Paulo: Atlas, 1996. 189 p. SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p. SPIEGEL, Murray R. Estatística: resumo da teoria, 875 problemas resolvidos, 619 problemas propostos. São Paulo: McGraw-Hill do Brasil, 1977. 580 p. TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p. URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência moderna, 2010. 530p. VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p. WERKEMA, Maria Cristina Catarino. As ferramentas da qualidade no gerenciamento dos processos. Belo Horizonte: EDG, 1995. 128 p.
Uanderson Rebula de Oliveira
Estatística
- 50 SITES PARA CONSULTA www.brasilescola.com Instituto de pesquisa econômica aplicada - http://www.ipea.gov.br Instituto brasileiro de geografia e estatística - http://www.ibge.gov.br Associação Brasileira de Estatística - http://www.ime.usp.br/~abe/
www.ibope.com.br ANEXO I - LIVROS RECOMENDADOS
Um livro introdutório de estatística que inclui um estilo de escrita amigável, conteúdo que reflete as características importantes de um curso introdutório moderno de estatística, o uso da tecnologia computacional mais recente, de conjuntos de dados interessantes e reais, e abundância de componentes pedagógicos. O CD-ROM inclui os conjuntos de dados do Apêndice B do livro. Esses conjuntos de dados encontram-se armazenados em formato texto, planilhas do Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83. Inclui também programas para a calculadora gráfica TI-83 Plus®, o Programa Estatístico STATDISK (Versão 9.1) e um suplemento do Excel, desenvolvido para aumentar os recursos dos programas estatísticos do Excel.
Este livro diferencia-se dos tradicionais livros, materiais de referência e manuais de estatísticas, pois possui: Explicações intuitivas e práticas sobre conceitos estatísticos, ideias, técnicas, fórmulas e cálculos. Passo a passo conciso e claro de procedimentos que intuitivamente explicam como lidar com problemas estatísticos. Exemplos interessantes do mundo real relacionados ao cotidiano pessoal e profissional. Respostas honestas e sinceras para perguntas como “O que isso realmente significa?” e “Quando e como eu vou usar isso?” Neste livro você encontrará: Explicações em português de fácil entendimento. Informações fáceis de localizar e passo-a-passo. Ícones e outros recursos de identificação e memorização. Folha de cola para destacar com informações práticas. Listas dos 10 melhores relacionados ao assunto. Um toque de humor e diversão. Onde comprar: www.submarino.com.br
Uanderson Rebula de Oliveira
Estatística
- 51 -
ANEXO II - SOFTWARE BIOESTAT
Texto extraído da tese de doutorado em Engenharia de Ualison Rebula de Oliveira
Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o MINITAB (TRIOLA, 2005). Assim, buscando‐se recursos computacionais que facilitassem o tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na Internet que oferecem programas em Javascript para cálculos on‐line, a exemplo da página na Internet www.stat.ucla.edu. Após análise de pós e contras de cada aplicativo pesquisado, selecionou‐se o pacote estatístico BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos não‐paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível na atualidade para o cálculo do qui‐quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0 e possuir mais de 20 anos de criação.
INTERFACE BIOESTAT
Baixar software: www.mamiraua.org.br
Uanderson Rebula de Oliveira
Estatística
- 52 Anexo III - ESTATÍSTICA NO EXCEL O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo excel, bastando inserir os valores da variável de interesse.
Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos Lapponi. WWW.SUBMARINO.COM.BR 4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus ‐ Acompanha CD‐ROM com Planilhas, Modelos, Simuladores etc. para Excel. O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade, Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD‐Rom, ou modificando‐os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam conhecer e aprender a utilizar os recursos de Estatística disponíveis. TÓPICOS • • • • • • • • • • • • • • • •
DADOS, VARIÁVEIS E AMOSTRAS DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE DISPERSÃO/VARIAÇÃO PROBABILIDADE CORRELAÇÃO VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS DISTRIBUIÇÕES CONTÍNUAS COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS DISTRIBUIÇÃO AMOSTRAL ESTIMAÇÃO TESTE DE HIPÓTESES TESTES DE HIPÓTESES COM DUAS AMOSTRAS ANÁLISE DA VARIÂNCIA REGRESSÃO LINEAR AJUSTE NÃO LINEAR
Uanderson Rebula de Oliveira
Estatística
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
Associação Educacional Dom Bosco - 1&-Probabilidade Estatística o
PROBABILIDADE Uanderson Rebula de Oliveira uanderson.rebula@aedb.br
Uanderson Rebula de Oliveira
Probabilidade
-2-
UANDERSON REBULA DE OLIVEIRA Mestrado em engenharia de Produção - Universidade Estadual Paulista-UNESP Pós-graduado em Controladoria e Finanças-Universidade Federal de Lavras-UFLA Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC Técnico em Segurança do Trabalho-ETPC Operador Siderúrgico e Industrial-ETPC Professor na UNIFOA no curso de Pós graduação em Engenharia de Segurança do Trabalho. Professor na Universidade Barra Mansa – UBM nos cursos de Engenharia de Produção e de Petróleo. Professor da Universidade Estácio de Sá - UNESA nas disciplinas de Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística para o curso de Engenharia de Produção, Estatística I e II para o curso de Administração, Ergonomia, Higiene e Segurança do Trabalho, Gestão de Segurança e Análise de Processos Industriais (Gestão Ambiental), Gestão da Qualidade: programa 5S (curso de férias). Professor na Associação Educacional Dom Bosco para os cursos de Adminitração e Logística. Ex-professor Conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Professor em escolas técnicas nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI. Consultor interno, desenvolvedor e instrutor de cursos corporativos na CSN, a níveis Estratégicos, Táticos e Operacionais. Membro do IBS–Instituto Brasileiro de Siderurgia.
PROBABILIDADE
EMENTA: Probabilidade. Eventos de probabilidades. Probabilidade condicional. Variáveis aleatórias e distribuições de probabilidades. Distribuições contínuas e discretas. Intervalo de Confiança para média. OBJETIVO: Refletir a partir da Estatística Básica sobre as ferramentas consolidadas pelo uso e pela ciência, disponíveis a todos, que auxiliam na tomada de decisão.
Resende - RJ – 2017
Uanderson Rebula de Oliveira
Probabilidade
-3-
APRESENTAÇÃO DA DISCIPLINA Uma das ferramentas mais utilizadas hoje em dia pelos cientistas, analistas financeiros, médicos, engenheiros, jornalistas etc. é a Estatística, que descreve os dados observados e desenvolve a metodologia para a tomada de decisão em presença da incerteza. O verbete estatística foi introduzido no século XVIII, tendo origem na palavra latina status (Estado), e serviu inicialmente a objetivos ligados à organização político-social, como o fornecimento de dados ao sistema de poder vigente. Hoje em dia, os modelos de aplicação da Teoria Estatística se estendem por todas as áreas do conhecimento, como testes educacionais, pesquisas eleitorais, análise de riscos ambientais, finanças, controle de qualidade, análises clínicas, índices de desenvolvimento, modelagem de fenômenos atmosféricos etc. Podemos informalmente dizer que a Teoria Estatística é uma ferramenta que ajuda a tomar decisões com base na evidência disponível, decisões essas afetadas por margens de erro, calculadas através de modelos de probabilidade. No entanto, a probabilidade se desenvolveu muito antes de ser usada em aplicações da Teoria Estatística. Um dos marcos consagrados na literatura probabilística foi a correspondência entre B. Pascal (1623-1662) e P. Fermat (16011665), onde o tema era a probabilidade de ganhar em um jogo com dois jogadores, sob determinadas condições. Isso mostra que o desenvolvimento da teoria de probabilidades começou com uma paixão humana, que são os jogos de azar, mas evoluiu para uma área fortemente teórica, em uma perspectiva de modelar a incerteza, derivando probabilidades a partir de modelos matemáticos. A análise combinatória deve grande parte de seu desenvolvimento à necessidade de resolver problemas probabilísticos ligados à contagem, mas hoje há diversas áreas em que seus resultados são fundamentais para o desenvolvimento de teorias, como, por exemplo, a área de sistemas de informação. Nesta apostila encontraremos as definições de Probabilidades, eventos, variáveis aleatórias, variância de variáveis aleatórias e distribuições de probabilidades; e distribuições contínuas e discretas de probabilidades.
Uanderson Rebula de Oliveira
Probabilidade
-4-
Falou mais o Senhor a Moisés, no deserto de Sinai, na tenda da congregação, no primeiro dia do mês segundo, no segundo ano da sua saída da terra do Egito, dizendo: Tomai a soma de toda a congregação dos filhos de Israel, segundo as suas gerações, segundo a casa dos seus pais, conforme o número dos nomes de todo o varão, cabeça por cabeça; Da idade de vinte anos e para cima, todos os que saem à guerra em Israel; a estes contareis segundo os seus exércitos, tu e Aarão. Estará convosco, de cada tribo, um homem que seja cabeça da casa dos seus pais. Todos os contados, pois, foram seiscentos e três mil, quinhentos e cinquenta. Números 1: 1-4; 46
Uanderson Rebula de Oliveira
Probabilidade
-5-
Sumário 1 – INTRODUÇÃO À PROBABILIDADE 1.1 CONCEITOS BÁSICOS DE PROBABILIDADES, 7 Experimento aleatório, 7 Espaço amostral, 7 Eventos, 8
1.2 CÁLCULOS DE PROBABILIDADES, 8 Probabilidade , 8 Eventos complementares, 9 Eventos mutuamente exclusivos, 10 Eventos não mutuamente exclusivos, 10 Probabilidade condicional e multiplicação de probabilidades, 11 Probabilidade com eventos dependentes, 11 Multiplicação de probabilidades com eventos dependentes, 13 Multiplicação de probabilidades com eventos independentes, 14
2 – VARIÁVEIS ALEATÓRIAS 2.1 VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES PROBABILIDADES, 16 2.2 VALOR ESPERADO, 18 2.3 VARIÂNCIA E DESVIO PADRÃO, 19
3 – DISTRIBUIÇÕES DE PROBABILIDADES 3.1 DISTRIBUIÇÃO UNIFORME, 21 3.2 DISTRIBUIÇÃO NORMAL, 22 3.3 DISTRIBUIÇÃO BINOMIAL, 27 3.4 DISTRIBUIÇÃO DE POISSON, 29 3.5 DISTRIBUIÇÃO EXPONENCIAL, 30
4 – INTERVALO DE CONFIANÇA Intervalo de Confiança para média , 32 Intervalo de Confiança para proporção, 33
REFERÊNCIAS BIBLIOGRÁFICAS, 34 ANEXO I – LIVROS RECOMENDADOS, 35 ANEXO II – Software BIOESTAT , 36 ANEXO III – Estatística no Excel, 37
Uanderson Rebula de Oliveira
Probabilidade
-6-
1 INTRODUÇÃO À PROBABILIDADE
É possível quantificar o acaso?
Uanderson Rebula de Oliveira
Probabilidade
-7-
1.1 CONCEITOS BÁSICOS DE PROBABILIDADES Probabilidade é uma medida numérica que representa a chance de um evento ocorrer. Dois exemplos clássicos (por sua simplicidade) do conceito de Probabilidade são: Ao lançar um dado, qual a probabilidade de obter “4”? Ao lançar a moeda, qual a probabilidade de dar “cara”?
Como representar numericamente as chances desses eventos? Conhecidas certas condições, é possível responder a essas duas perguntas, antes mesmo da realização desses experimentos. A teoria da probabilidade surgiu para tentar calcular a “chance” de ocorrência de um resultado imprevisível, porém, pertencente a um conjunto de resultados possíveis. Todos os dias somos confrontados com situações, que nos conduzem a utilizar a teoria de probabilidade: Dizemos que existe uma pequena probabilidade de ganhar na loteria; Dizemos que existe uma grande probabilidade de não chover num dia de verão; O gerente quer saber a probabilidade de o projeto ser concluído no prazo; O analista financeiro quer saber a chance de um novo investimento ser lucrativo; O gerente de marketing quer saber as chances de queda de vendas se aumentar os preços; O eng. produção quer saber a probabilidade de um novo método de montagem aumentar a produtividade. É POSSÍVEL QUANTIFICAR O ACASO. Desse modo, se houver probabilidades disponíveis, podemos determinar a possibilidade de cada um dos eventos ocorrer. Para continuar o estudo de probabilidades, três conceitos são importantes: Experimento aleatório, espaço amostral e eventos.
Experimento aleatório Experimento cujo resultado é imprevisível, porém pertencente a um conjunto de resultados possíveis. É o fenômeno que estamos interessados em observar, e cada resultado dele é uma experiência. Embora não saibamos qual o resultado que irá ocorrer, conseguimos descrever todos os resultados possíveis. Exemplos: EXPERIMENTO Jogar uma moeda Lançar um dado Jogar uma partida de futebol Fazer um contato de vendas Selecionar uma peça para inspeção Nascimento de uma criança
Resultados possíveis Cara ou Coroa 1, 2, 3, 4, 5, 6 Ganhar, empatar, perder Comprar, não comprar Defeituosa, não defeituosa Masculino, feminino
A principal característica do experimento é ser casual, no sentido de que, apesar de conhecermos seus possíveis resultados, não podemos dizer com certeza o que vai ser obtido. Quantas e quais as possibilidades de resultados desses experimentos são questões que tentamos responder para avaliar as chances de eles acontecerem.
Espaço amostral É o conjunto de todos os resultados possíveis de um experimento aleatório. Note que, ao especificar todos os resultados possíveis, identificamos o espaço amostral, representado por S. São exemplos de espaços amostrais: EXPERIMENTO ALEATÓRIO
Jogar uma moeda Lançar um dado Jogar uma partida de futebol Fazer um contato de vendas Selecionar uma peça para inspeção Nascimento de uma criança
Uanderson Rebula de Oliveira
Espaço amostral S = { Cara, Coroa} S = {1, 2, 3, 4, 5, 6} S = {Ganhar, Empatar, Perder} S = {Comprar, Não comprar} S = {Defeituosa, Não defeituosa} S = {Masculino, Feminino}
Probabilidade
-8-
Eventos
É o resultado possível dentro de um espaço amostral.
Lançar um dado observar sua face
Evento A → {sair número dois} → A={2}.
e
Evento B → {sair número maior que 4} → B={5,6}. Evento C → {sair número par} →C={2,4,6}. Evento D → {sair número menor que 2} → D={1}.
S = {1,2,3,4,5,6}
O Diagrama de Venn pode representar graficamente o espaço amostral e o evento.
Evento A → {sair número dois} → A={2}. Evento C → {sair número par} → C={2,4,6}. Evento
A 2
Espaço amostral
S
1
Evento
3 4 5 6
C
S = {1,2,3,4,5,6} A = {2}
1
2 4
S
6
Espaço amostral
3 5
S = {1,2,3,4,5,6} C = {2,4,6}
A área do círculo representa o Evento e a área do retângulo representa todos os elementos de um espaço amostral.
1.2 CÁLCULOS DE PROBABILIDADES Probabilidade
P
A probabilidade é dada por:
n( A ) S
nº elementos no evento A Espaço amostral
Exemplos:
1) No lançamento de um dado, qual a probabilidade de o resultado ser o número 2? A = {2} → A = 1 S = {1,2,3,4,5,6} → S = 6
P(A) = 1 = 0,1666 ou 16,66% 6
a probabilidade de o resultado ser o “2” é de 1 chance em 6 ou 0,1666 ou 16,66%.
2) No lançamento de uma moeda, qual a probabilidade de o resultado ser Cara? A = {Ca} → A = 1 S = {Ca,Co} → S = 2
P(A) = 1 = 0,50 ou 50% 2
3) Uma urna tem 10 bolas, sendo 8 pretas e 2 brancas. Pegando‐se uma bola, qual a probabilidade de ela ser branca? A = {B,B} → A = 2 S = {P,P,P,P,P,P,P,P,B,B} → S = 10
P(A) = 2 = 0,20 ou 20% 10
4) Em um lote de 200 peças, 25 são defeituosas e 175 são boas. Se um Analista Industrial retira uma peça, qual a probabilidade de essa peça ser defeituosa? A = {D,D,D,D,D...} → A = 25 S = {B,B,B,B,B,B...D,D} → S = 200
P(A) = 25 = 0125 ou 12,5% 200
5) Das 120 notas fiscais emitidas por uma empresa, 16 tem erros de impressão. Se um Auditor seleciona uma nota fiscal, qual a probabilidade de essa nota apresentar erros de impressão? A = {NE, NE, NE ...} → A = 16 S = {NB,NB, NB...NE,NE} → S = 120
P(A) = 16 = 0125 ou 12,5% 120
NE = Nota com erro ; NB = Nota boa
Uanderson Rebula de Oliveira
Probabilidade
-9
figuras Observe as cartas de um baralho de 52 cartas, abaixo: Naipes Valete Dama Reis Ás (Paus) (preta) 13 cartas
(ouros) (vermelha) 13 cartas (Espadas) (preta) 13 cartas (Copas) (vermelha) 13 cartas
Quando retiramos uma carta de um baralho de 52 cartas, qual a probabilidade de o resultado:
Sair um Reis: temos 4 Reis no baralho. Então:
Sair um Ás de Ouros: temos 1 Ás de Ouros no baralho, então:
A = {Ás} → A = 1 P(A) = 1 = 0,019 S= {52 cartas} → S = 52 52
A = {R,R,R,R} → A = 4 P(A) = 4 = 0,076 S= {52 cartas} → S = 52 52
Interpretação de valores probabilísticos
As probabilidade são sempre são atribuídos em uma escala de 0 a 1 (ou 0% a 100%)
0 0,5 (50%) 1 (100%) Números que não podem Impossível pouco provável provável Certo representar probabilidade:
10/5 120% ‐0,4
Chance 50‐50
Eventos complementares
É a probabilidade com os resultados que não fazem parte do evento (A).
Eventualmente queremos saber a probabilidade de um evento não ocorrer. Portanto, é o evento formado pelos resultados que não pertencem ao evento A. Sendo P( A ) a probabilidade de que ele não ocorra e P(A) a probabilidade que ocorra, temos:
Probabilidade com Evento complementar
P( A ) = 1 – P(A)
Probabilidade do evento não ocorrer
Probabilidade evento (A)
Exemplo. No lançamento de um dado, qual a probabilidade de o resultado:
Pela probabilidade (A)
Probabilidade com evento complementar
não ser o número 2
ser o número 2
→ A = 1 A={2} S={1,2,3,4,5,6} → S = 6
P(A) = 1 = 0,1666 6
P( A ) = 1 – P(A) = 1 – 0,1666 → 0,8333 ou 83,33%
O “Diagrama de Venn” abaixo ilustra a relação entre o espaço amostral, o evento A e seu complemento A :
P(A) = 16,66% Probabilidade (A)
A
1
2
Uanderson Rebula de Oliveira
4
5
S
P( A ) = 83,33% Probabilidade Complementar
3 6
A
A equação 1‐ P( A ) fundamenta‐se na interpretação dos valores probabilísticos: 0 1 0,1666 A = 0,8333
Probabilidade
- 10 -
Eventos mutuamente exclusivos
É a probabilidade com eventos que não ocorrem ao mesmo tempo. Ou ocorre A ou ocorre B (A ou B). A ocorrência de um evento impossibilita a ocorrência do outro.
Dois eventos são mutuamente exclusivos quando a ocorrência de um evento exclui a ocorrência de outro. É impossível ocorrer os eventos A e B ao mesmo tempo. Então, o termo “ou” indicará “adição de probabilidades”. Para encontrar a probabilidade de um evento ou outro ocorrer, adicionamos as probabilidades de cada evento: P(A ou B) = P(A) + P(B).
Exemplo 1. Ao lançar um dado, a probabilidade de se tirar o 2 ou 5 é: S 3 A B “ou” indica Adição de probabilidades. P(A ou B) = P(A) + P(B) 6 5 A = {2} → A = 1 P(A ou B) = 1 + 1 = 2 = 0,3333 4 2 ou B = {5} → B = 1 6 6 6 1 S = {1,2,3,4,5,6} → S = 6 Exemplo 2. Ao retirar uma carta de um baralho de 52 cartas, a Exemplo 3. Numa urna estão 10 bolas, sendo 2 pretas probabilidade de sair um Rei ou uma Dama é: (P), 5 amarelas (A) e 3 verdes (V). Pegando‐se uma bola, qual a probabilidade de ela ser preta ou verde? A = {R,R,R,R } → A = 4 P(AouB) = 4 + 4 = 8 = 0,1538 A = {P,P } → A = 2 P(AouB) = 2 + 3 = 5 = 0,5 B = {D,D,D,D} → B = 4 52 52 52 B= {V,V,V} → B = 3 10 10 10 S = {52 cartas → S = 52 S = {10}
→ S = 10
Eventos NÃO mutuamente exclusivos
É a probabilidade com Eventos que podem ocorrer ao mesmo tempo. Ou ocorre A ou B ou AMBOS (A e B). A ocorrência de um NÃO impossibilita a ocorrência do outro.
Dois eventos NÂO são mutuamente exclusivos quando a ocorrência de um evento não exclui a ocorrência de outro. É possível ocorrer os eventos A e B ao mesmo tempo. O termo “ou”, indicará “adição” e “e” indicará “ambos”
Exemplo 1 Ao lançar um dado, a probabilidade de obter um número ímpar ou menor que 3 é:
ímpar
A
Menor que 3
Os eventos A e B não são mutuamente exclusivos, pois “1” ocorre em A e B (ambos).
S
B
1
5
2
3
2
5
Se aplicarmos P(AouB) = P(A) + P(B) teremos: /6 + /6 = /6. Observe no diagrama que 4 este resultado está incorreto, pois P(AouB) = /6. Este erro foi provocado pela dupla contagem de “1”.
3 6 4
Neste caso, ajustaremos a regra da soma para evitar a dupla contagem. A equação será:
P(AouB) = P(A) + P(B) – P(A e B)
A e B (Ambos)
Então, a probabilidade de lançar um número ímpar ou menor que 3 será:
A = {1,3,5} B = {1,2} A e B = {1} S = {1,2,3,4,5,6}
→ A = 3 P(AouB) = 3 + 2 ‐ 1 = 4 = 0,6666 → B = 2 6 6 6 6 → A e B = 1 → S = 6
Exemplo 2 Numa pesquisa sobre a preferência de dois jornais, consultamos 470 pessoas, sendo que 250 lêem o jornal A, 180 lêem o jornal B e 60 lêem os jornais A e B. Escolhendo uma pessoa ao acaso, qual a probabilidade de que seja:
Jornal A
B
Jornal
60
a) Leitor dos jornais A ou B?
A = {250} B = {180} A e B = {60} S = {470}
P(A ou B) = P(A) + P(B) – P(A e B) 250 + 180 – 60 = 370 = 0,7872 470 470 470 470
AeB
Uanderson Rebula de Oliveira
Probabilidade
- 11 -
PROBABILIDADE CONDICIONAL E MULTIPLICAÇÃO DE PROBABILIDADES
Probabilidade com Eventos dependentes
É a probabilidade do Evento B ocorrer, dado que o evento A já tenha ocorrido.
Diz‐se probabilidade condicional quando a ocorrência de um evento está condicionada à ocorrência do outro. Portanto, os eventos são dependentes. A probabilidade de um é alterada pela existência do outro.
A probabilidade condicional do Evento B, dado que A ocorreu é denotada por:
ocorreu (lê‐se “probabilidade de B, dado que A ocorreu”) P(B|A) = P(A e B) P(A) → espaço amostral de A, “reduzido” Ao calcular P(B|A) tudo se passa como se P(A) fosse o novo espaço amostral “reduzido” dentro do qual, queremos calcular a probabilidade de B. Não utilizamos o espaço amostral original.
Exemplo 1. Ao lançar um dado, observou‐se um número maior que 2 (evento A ocorreu). Qual a probabilidade de esse número ser o “5” (evento B)?
Maior que 2 A 4 3 Novo espaço 6 amostral
O evento A ocorreu e queremos saber o B (dentro de A):
Ser o 5
B
A = {3, 4, 5, 6}
B = {5}
5
P(B|A) será a probabilidade de ocorrer o número 5 no novo espaço amostral reduzido de A. Então:
1 2
A e B = {5} → 1 A = {3,4,5,6} → 4
Espaço amostral original S = {1,2,3,4,5,6}
P(B|A) = P(A e B) → 1 = 0,25 P(A) 4
Observe que não usamos o espaço amostral original S.
EXEMPLO 2 Ao lançar um dado, observou‐se um número maior que 1 (evento A ocorreu). Qual é a probabilidade de esse número ser ímpar (Evento B)?
Maior que 1 A 2 4 Novo espaço 6 amostral
B
O evento A ocorreu e queremos saber o B (dentro de A):
ímpar
A = {2, 3, 4, 5, 6} B = {3, 5}
3 5
Espaço amostral original S = {1,2,3,4,5,6}
P(B|A) será a probabilidade de ocorrer número ímpar no novo espaço amostral reduzido de A. Então:
1
A e B = {3,5} → 2 A = {2,3,4,5,6} → 5
P(B|A) = P(A e B) → 2 = 0,40 P(A) 5
Observe que não usamos o espaço amostral original S
EXEMPLO 3 Duas cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 2ª carta seja uma dama, dado que a 1ª seja um rei. (assuma que o rei está sem reposição). Solução. Em razão de a primeira carta ser um rei e não ser a resposta, o baralho restante tem 51 cartas, 4 das quais são dama. Então:
P (B|A) = 4 = 0,078 51
EXEMPLO 4 Cinco cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 5ª carta seja uma dama. Dado que a 1ª = rei; 2ª = dama; 3ª = 8 ; 4ª = Ás. (assuma que não há reposição). Solução. Em razão de a 1ª = rei; 2ª = dama; 3ª = 8 ; 4ª = Ás, o baralho restante tem 48 (52‐4) cartas, 3 das quais são dama. Então:
P (E|A,B,C,D) = 3 = 0,062 48 Note que o espaço amostral original foi reduzido
Uanderson Rebula de Oliveira
Probabilidade
- 12 -
EXEMPLO 5 Numa pesquisa sobre a preferência de dois jornais, consultamos 470 pessoas e o resultado foi o seguinte: 250 lêem o jornal A, 180 lêem o jornal B, 60 lêem os jornais A e B. Escolhendo uma pessoa ao acaso, qual a probabilidade de:
b) Um leitor do jornal B, também ser leitor do A?
a) Um leitor do jornal A, também ser leitor do B?
Jornal A 190 Novo espaço amostral
B
Jornal
60 120
Jornal
B
A 190
Jornal Novo espaço amostral
60 120
O evento A ocorreu e queremos saber o B. Então, denotamos P(B|A). Dentre os leitores do Jornal A, devemos destacar os que lêem B; logo, o espaço amostral desse evento é A (190+60=250). Então, a probabilidade é:
O evento B ocorreu e queremos saber o A. Então, denotamos P(A|B). Dentre os leitores do Jornal B, devemos destacar os que lêem A; logo, o espaço amostral desse evento é B (120+60=180). Então, a probabilidade é:
A e B = {60} → 60 A= {190+60} → 250
P(B|A)=P(A e B) → 60 = 0,24 P(A) 250
EXEMPLO 6. O quadro abaixo mostra os resultados de um estudo no qual os pesquisadores examinaram o QI de uma criança e a presença de um gene específico nela.
Gene Gene não presente presente
A probabilidade de que a criança tenha um QI alto (Evento B), dado que a criança tenha o gene (Evento A) é?
QI alto QI normal
33 39 72
19 11 30
52 50 102
Solução. Há 72 crianças que têm o gene. Então, o espaço amostral consiste dessas 72 crianças. Dessas, 33 tem QI alto. Então:
P (B|A) = 33 = 0,458 72
EXEMPLO 7 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Ao selecionar duas peças em sequência, sem reposição, qual a probabilidade de:
a 2ª peça ser “defeituosa”, dado que a 1ª é “defeituosa”. Solução. Em razão de a 1ª peça ser defeituosa, o lote restante tem 11 peças, 3 das quais são defeituosas. Então:
P (B|A) = 3 = 0,2727 11
a 2ª peça ser “defeituosa”, dado que a 1ª é de “qualidade”. Solução. Em razão de a 1ª peça ser de qualidade, o lote restante tem 11 peças, 4 das quais são defeituosas. Então:
P (B|A) = 4 = 0,3636 11
a 2ª peça ser de “qualidade”, dado que a 1ª é “defeituosa”. Solução. Em razão de a 1ª peça ser defeituosa, o lote restante tem 11 peças, 8 das quais são de qualidade
Uanderson Rebula de Oliveira
P (B|A) = 8 = 0,7272 11
Probabilidade
- 13 -
Multiplicação de probabilidade com eventos dependentes
...ache P(A e B) , dado P(B|A) e P(A)
Uma consequência matemática importante da definição de probabilidade condicional é a seguinte: se quero achar: P(B|A) = ? então → P(B|A) = P(A e B) P(A e B) = P(A) x P(B|A) P(A) P(A e B) P(A) Isto é, a probabilidade dos eventos (A e B) é o produto da probabilidade de um deles pela probabilidade do outro, dado o primeiro.
EXEMPLO 1 Duas cartas são selecionadas em sequência em um baralho de 52 cartas. Qual a probabilidade de selecionar um Rei e uma Dama? (não há reposição). /52. A P(A e B) = ? 4 2ª carta ser uma Dama é /51, pois o baralho P(A) = /452 P(B|A) = /51 restante tem 51 cartas, 4 das quais são dama. A probabilidade de a 1ª carta ser um Rei é
4
4
P(A e B) = P(A) x P(B|A)
4 x 4 → 16 = 0,006 52 51 2652
EXEMPLO 2 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Sendo retiradas duas peças em sequência, qual a probabilidade de que: (não há reposição)
a) Ambas sejam “defeituosas”
b) Ambas sejam de “qualidade”
P(A e B) = ? 4 x 3 = 0,090 4 P(A) = /12 12 11 3 P(B|A) = /11 4 3 A probabilidade de a 1ª peça ser defeituosa é /12 e a 2ª é /11, pois o lote restante tem 11 peças, 3 das quais são defeituosas.
P(A e B) = ? 8 8 x 7 = 0,4242 P(A) = /12 7 12 11 P(B|A) = /11 8 7 A probabilidade de a 1ª peça ser de qualidade é /12 e a 2ª é /11, pois o lote restante tem 11 peças, 7 das quais são de qualidade.
EXEMPLO 3 Uma urna contém 7 bolas brancas (B) e 3 pretas (P). Extraindo‐se três bolas em sequência, qual a probabilidade de que: (não há reposição).
a) As duas primeiras sejam brancas e a terceira seja preta (ou seja, BBP)
7
6
A probabilidade de a 1ª bola ser branca é /10 e a 2ª é /9. A 3 probabilidade de a 3ª bola ser preta é /8, pois a urna restante tem 8 peças, 3 das quais são pretas.
7
P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8
7 x 6 x 3 = 0,175 10 9 8
b) Duas sejam brancas e uma seja preta (ou seja: BBP, BPB ou PBB) = 3[BBP]
O evento sair “duas brancas e uma preta” pode ocorrer de três maneiras que diferem apenas pela ordem de aparecimento das bolas: (BBP, BPB, PBB). Logo, a probabilidade será a soma dessas maneiras. Então, basta calcular a probabilidade de uma dessas maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(BBP).
7
P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8
7 6 3 3 x x = 0,525 10 9 8
c) Pelo menos duas sejam brancas (ou seja: 3[BBP] + [BBB]) 2 brancas
3 brancas
“Pelo menos duas brancas“ é a mesma coisa que “no mínimo duas brancas”, ou seja, duas ou três brancas. Então, calculamos duas brancas + três brancas.
3[BBP] 7 P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8
[BBB] 7 P(A) = /10 6 P(B|A) = /9 5 P(C|B) = /8
3[PPB] 3 P(A) = /10 2 P(B|A) = /9 7 P(C|B) = /8
7 6 3 7 6 5 3 x x + x x = 0,8166 10 9 8 10 9 8
d) No máximo uma seja branca (ou seja: [PPP] + 3[PPB]) 0 branca
1 branca
No máximo uma branca é a mesma coisa que “ou nenhuma branca ou uma branca”. Então, calculamos nenhuma branca (todas pretas) + uma branca.
[PPP] 3 P(A) = /10 2 P(B|A) = /9 1 P(C|B) = /8
3 2 1 3 2 7 x x + 3 x x = 0,1833 10 9 8 10 9 8
e) Pelo menos uma seja preta. (ou seja: 3[PBB] + 3[PPB] + [PPP]) 1 preta 2 pretas 3 pretas 3[PBB] 3 P(A) = /10 7 P(B|A) = /9 6 P(C|B) = /8
3[PPB] 3 P(A) = /10 2 P(B|A) = /9 7 P(C|B) = /8
[PPP] 3 P(A) = /10 2 P(B|A) = /9 1 P(C|B) = /8
3 7 6 3 2 7 3 2 1 3 x x + 3 x x + x x = 0,7083 10 9 8 10 9 8 10 9 8
MÉTODO ALTERNATIVO:
É mais prático usar o evento complementar: 1 – BBB (nenhuma preta) f) Todas sejam da mesma cor: [PPP]+[BBB] = 0,30
Uanderson Rebula de Oliveira
[BBB] 7 P(A) = /10 6 P(B|A) = /9 5 P(C|B) = /8
7 6 5 1 x x = 0,7083 10 9 8
Probabilidade
- 14 -
Multiplicação de Probabilidade com Eventos independentes
É quando a ocorrência do Evento A não afeta a probabilidade da ocorrência do B. Não existe dependência. A e B podem ocorrer simultaneamente (ao mesmo tempo). São independentes.
A regra da multiplicação é usada para achar P(A e B) para eventos independentes. Aqui associaremos a palavra “e” com “multiplicação”. O termo chave usado é “simultâneo”. A equação é : P(A e B) = P(A) x P(B). Existe reposição
1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
5
1 2 3 4 5 6
( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )
6
1 2 3 4 5 6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
1
2
Lançar dois dados
3
Exemplo 1. Ao lançar dois dados simultaneamente, qual a probabilidade de: Obter o número 2 e ímpar ?
Pelo Diagrama de árvore:
Então, a probabilidade é:
3 = 8,33% 36
(2,1), (2,3), (2,5)
Se aplicarmos a regra da multiplicação, temos:
A={2} → A = 1 P(A e B) = P(A) x P(B) B={1,3,5} → B = 3 1 x 3 = 3 = 8,33% S={1,2,3,4,5,6} → S = 6 6 6 36
Obter um número par e ímpar ?
Evento A e Evento B
S = {36}
Pelo Diagrama de árvore
Então, a probabilidade é:
9 = 25% 36
(2,1), (2,3), (2,5) (4,1), (4,3), (4,5) (6,1), (6,3), (6,5)
Aplicando a regra da multiplicação, temos:
A={2,4,6} → A = 3 P(A e B) = P(A) x P(B) B={1,3,5} → B = 3 3 x 3 = 9 = 25% S={1,2,3,4,5,6} → S = 6 6 6 36 Esta regra pode ser estendida para qualquer número de eventos independentes: P (A e B e C) = P(A) x P(B) x P(C)...
O resultado do evento B independe do resultado de A. “São independentes”
Exemplo 2. Cirurgias de microfraturas no joelho têm 75% de chance de Sucesso em pacientes com joelhos degenerativos (25% é de fracasso). A cirurgia é realizada em 3 pacientes. Calcule a probabilidade de que: Nota: A probabilidade de que cada cirurgia seja um sucesso é de 0,75. A chance de um sucesso para uma cirurgia é independente das chances para as outras cirurgias. Portanto, os eventos são independentes.
a) As três cirurgias sejam um sucesso. ou seja:[SSS] [SSS] P (A e B e C) = P(A) x P(B) x P(C) P(A) = 0,75 0,75 x 0,75 x 0,75 = 0,4218 P(B) = 0,75 P(C) = 0,75
b) As três cirurgias sejam um fracasso. ou seja:[FFF]
[FFF] P(A) = 0,25 P(B) = 0,25 P(C) = 0,25
P (A e B e C) = P(A) x P(B) x P(C)
0,25 x 0,25 x 0,25 = 0,0156
c) Duas cirurgias sejam um sucesso (ou seja: SSF, SFS, FSS) = 3[SSF]
O evento “Duas cirurgias” pode ocorrer de três maneiras que diferem apenas pela ordem dos resultados das cirurgias: (SSF, SFS, FSS). Logo, a probabilidade será a soma dessas maneiras. Então, basta calcular a probabilidade de uma dessas maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(SSF).
P(A) = 0,75 P(B) = 0,75 P(C) = 0,25
3 * (0,75*0,75*0,25) = 0,4218
Uanderson Rebula de Oliveira
Probabilidade
- 15 -
2 VARIÁVEIS ALEATÓRIAS
Lançar dois dados
1
1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
2
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
3
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
5
1 2 3 4 5 6
( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )
É possível criar um modelo teórico que descreva como se espera que o experimento se comporte?
6
6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
6 5
5
/36 4
4
/36
5 4
3
3
1 2 3 4 5 6
/36
3
/36 2
2
2
1
/36 1
1
/36
2 3 4 5 6 7 8 9 10 11 12
Soma dos dados
Uanderson Rebula de Oliveira
Probabilidade
- 16 -
VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADES
Uma variável aleatória “X” representa um valor numérico associado a cada resultado de um experimento de probabilidade.
Exemplo 1. A tabela e o gráfico abaixo representam um modelo de probabilidade para a soma de dois dados lançados simultaneamente:
Variáveis aleatórias(X) Valor numérico de cada experimento
1 2 3 4 5 6
( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )
2
1 2 3 4 5 6
( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )
3
1 2 3 4 5 6
( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )
4
1 2 3 4 5 6
( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )
1
Lançar dois dados
5
1 2 3 4 5 6
( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )
6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
frequências
É a lista de cada valor de uma variável aleatória “X”
Soma dos dados “X” 2 3 4 5 6 7 8 9 10 11 12 6 5 4 3 2 1
Probabilidade “P(x)”
f
1
/36 /36 3 /36 4 /36 5 /36 6 /36 5 /36 4 /36 3 /36 2 /36 1 /36
1 2 3 4 5 6 5 4 3 2 1 =36
2
=1
/36
6 5
/36 4
/36
1 2 3 4 5 6
Distribuição de probabilidades
4
3
/36
3
2
/36
2
1
/36
Representação gráfica da distribuição
5
1
2 3 4 5 6 7 8 9 10 11 12
Soma dos dados
Notas e comentários A palavra “aleatório” indica que “X” é determinado pelo acaso. A variável aleatória é uma regra que associa um valor numérico a cada resultado experimental possível. A distribuição de probabilidades de uma variável aleatória descreve como as probabilidades estão distribuídas sobre os valores da variável aleatória. Para uma variável “X”, a distribuição de probabilidade é definida por uma função probabilidade, denotada por f(x). A função probabilidade fornece a probabilidade correspondente a cada um dos valores da variável aleatória. A principal vantagem de definir uma variável aleatória “X” e sua distribuição de probabilidade é que, uma vez que a distribuição seja conhecida, torna‐se relativamente fácil determinar a probabilidade de uma série de eventos que podem ser do interesse de um tomador de decisões.
Uanderson Rebula de Oliveira
Probabilidade
- 17 -
Exemplo 2. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Definindo a variável aleatória “X” como o prazo para conclusão do projeto e, usando a Regra da Adição com as probabilidades no diagrama de árvore, você poderá determinar a probabilidade de ocorrência dos meses para conclusão do projeto. Então, poderá usar essa informação para estabelecer as distribuições de probabilidades:
Conclusão do projeto (em meses) “X” 8 9 10 11 12 -
f
Probabilidade “P(x)” 1
1 2 3 2 1
/9 = 0,11 /9 = 0,22 3 /9 = 0,33 2 /9 = 0,22 1 /9 = 0,11
2
=1
=9
Prazo para conclusão do projeto
Assim, podemos responder rapidamente alguns questionamentos: Qual a probabilidade de o projeto ser concluído em 8 meses? R.: 11% Qual a probabilidade de o projeto ser concluído em 9 meses? R.: 22% Qual a probabilidade de o projeto ser concluído em 10 meses? R.: 33% Qual a probabilidade de o projeto ser concluído em 10 ou 11 meses? R.: 55% Qual a probabilidade de o projeto ser concluído entre 9 e 11 meses? R.: 77%
Probabilidade
1 0.8 0.6
0.33
0.4
0.22
0.22
0.11
0.2
0.11
0
8
9
10 meses
11
12
Exemplo 3. Uma pesquisa entrevistou 200 casas de um bairro sobre quantas televisões possuem. Os dados mostram que 3 casas não possuem televisão, 38 casas possuem 1 televisão, 95 casas possuem 2 televisões, 52 casas possuem 3 televisões e 12 casas possuem 4 televisões. Definimos a variável aleatória de interesse como “X” o número de televisões. A partir dos dados, sabemos que X é uma variável aleatória que pode assumir 0, 1, 2, 3, ou 4. Temos, então, a distribuição de probabilidades e o gráfico abaixo:
Casas com televisões em um bairro f (casas)
3 38 95 52 12 =200
Probabilidade “P(x)” 3 /200 = 0,015 38 /200 = 0,190 95 /200 = 0,475 52 /200 = 0,260 12 /200 = 0,060 =1
1
Probabilidade
Nº de televisões “X” 0 1 2 3 4 -
0.8 0.6
0.475
0.4
0.19 0.2
0.26 0.06
0.015
0
0
1 2 3 Número de televisões
4
Assim, podemos responder rapidamente alguns questionamentos: Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela não possuir televisão? R.: 1,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 1 televisão? R.: 19% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 2 televisões? R.: 47,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 2 ou 3 televisões? R.: 73,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir televisão? R.: 98,5%
Uanderson Rebula de Oliveira
Probabilidade
- 18 -
VALOR ESPERADO E(X)
O Valor esperado de variáveis aleatórias “X” é um valor que você esperaria acontecer em vários testes.
Podemos considerar o Valor esperado no sentido de que é o valor médio que esperaríamos se o experimento fosse feito diversas vezes. Então, podemos dizer que o conceito de Valor esperado aplicado em uma variável aleatória é equivalente à Média ponderada dos possíveis valores que “X” pode receber, onde os pesos são as probabilidades associadas. É semelhante ao cálculo da Média de uma Distribuição de frequência. Obtemos, então, a seguinte fórmula:
EQUAÇÃO DO VALOR ESPERADO Valor esperado de “X”
E (X) = X . P(x) Probabilidades associadas Variáveis Aleatórias
Cada valor de X é multiplicado por sua probabilidade e os produtos são adicionados. O Valor esperado, representado por E(X), também é chamado de Média de uma Variável Aleatória, Esperança matemática, Esperança ou Expectância.
Exemplo 1. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo esperado para conclusão do projeto?
Conclusão do projeto P(x) (em meses) X 8 0,11 x = 9 0,22 10 0,33 11 0,22 12 0,11 =1
X . P(x) 0,88 1,98 3,30 2,42 1,32 X.P(x) = 10
Valor esperado E(X)
Interpretação: Espera‐se que o projeto seja concluído em 10 meses NOTA: Posso fazer também da seguinte forma: E(X) = 8(0,11) + 9(0,22) + 10(0,33) + 11(0,22) + 12(0,11) = 10 meses
Exemplo 2. A tabela abaixo representa um modelo de probabilidade para a soma de dois dados lançados simultaneamente. Qual o valor esperado para a soma dos dados? 3 1 ( 1, 1 ) Soma dos Probabilidade X . P(x) 2 ( 1, 2 ) 3 ( 1, 3 ) dados “X” “P(x)” 1 4 ( 1, 4 ) 5 ( 1, 5 ) 2 0,0278 0,0556 x = 6 ( 1, 6 ) 3 0,0556 0,1667 1 ( 2, 1 ) 2 ( 2, 2 ) 4 0,0833 0,3333 3 ( 2, 3 ) 2 5 0,1111 0,5556 4 ( 2, 4 ) 5 ( 2, 5 ) 6 0,1389 0,8333 6 ( 2, 6 ) 7 0,1667 1,1667 1 ( 3, 1 ) 2 ( 3, 2 ) 8 0,1389 1,1111 3 ( 3, 3 ) 3 4 ( 3, 4 ) Lançar dois dados 9 0,1111 1,0000 5 ( 3, 5 ) 6 ( 3, 6 ) 10 0,0833 0,8333 1 ( 4, 1 ) 11 0,0556 0,6111 2 ( 4, 2 ) 3 ( 4, 3 ) 4 12 0,0278 0,3333 4 ( 4, 4 ) 5 ( 4, 5 ) X.P(x) = 7 =1 6 ( 4, 6 ) 1 ( 5, 1 ) 2 ( 5, 2 ) Valor esperado E(X) 3 ( 5, 3 ) 5
6
4 5 6
( 5, 4 ) ( 5, 5 ) ( 5, 6 )
Interpretação: Espera‐se que a soma dos dados seja 7.
1 2 3 4 5 6
( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )
NOTA: Posso fazer também da seguinte forma: E(X) = 2(0,0278) + 3(0,0556) + 4(0,0833) + 5(0,1111) 6(0,1389) + 7(0,1667) + 8(0,1389) + 9(0,1111) + 10(0,0833) + 11(0,0556) + 12(0,0278) = 7
Uanderson Rebula de Oliveira
Probabilidade
- 19 -
VARIÂNCIA E DESVIO PADRÃO
Podemos aplicar os conceitos de Variância e Desvio Padrão para o Valor esperado E (X).
Embora o Valor esperado de uma distribuição de probabilidades da variável aleatória descreva um resultado comum, ela não dá informações sobre a maneira que os resultados variam. Para estudar a variação dos resultados, você pode usar a variância e o desvio padrão de uma distribuição de probabilidades da variável aleatória. Então:
FÓRMULA DA VARIÂNCIA E DESVIO PADRÃO DO VALOR ESPERADO VARIÂNCIA
S
DESVIO PADRÃO
(x – EX) . P(x) 2
2 =
S =
s2
Probabilidades associadas Valor esperado Variáveis Aleatórias
Variância
Exemplo Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo esperado para conclusão do projeto, a variância e o desvio padrão?
Conclusão do projeto (em meses) X 8 9 10 11 12 Total
P(x)
X . P(x)
0,11 0,22 0,33 0,22 0,11 =1
0,88 1,98 3,30 2,42 1,32 EX = 10
2
(X – EX)2 . P(x) ( 8–10)2 ( 9–10)2 (10–10)2 (11–10)2 (12–10)2
Então, a Variância é: S = 1,32 e o Desvio padrão é: S =
. (0,11) = 0,44 . (0,22) = 0,22 . (0,33) = 0 . (0,22) = 0,22 . (0,11) = 0,44 = 1,32
s 2 → S = 1,32 → 1,15 meses
Podemos calcular também, sem montagem de tabela, da seguinte forma: S2 = (x – EX)2.P(x) → (8‐10)2. (0,11) + (9‐10)2. (0,22) + (10‐10)2. (0,33) + (11‐10)2. (0,22) + (12‐10)2. (0,11) = 1,32 S = 1,32 → 1,15 meses
Interpretação do desvio padrão: O Desvio padrão indica que a maioria dos valores de dados difere do Valor esperado não mais que 1,15 meses, para mais ou para menos. Então, podemos afirmar que os valores esperados estão dentro dos limites de:
8,85 11,15 8 meses
Uanderson Rebula de Oliveira
9 meses
10 meses E(X)
11 meses
12 meses
Probabilidade
- 20 -
Uanderson Rebula de Oliveira
CAPÍTULO 3 DISTRIBUIÇÕES DE PROBABILIDADES
DISTRIBUIÇÃO UNIFORME DISTRIBUIÇÃO NORMAL DISTRIBUIÇÃO BINOMIAL DISTRIBUIÇÃO DE POISSON DISTRIBUIÇÃO EXPONENCIAL
Probabilidade
- 21 -
DISTRIBUIÇÃO UNIFORME
É aquela na qual as variáveis aleatórias se espalham uniformemente sobre a faixa de valores possíveis, ou seja, todos os valores ocorrem com a mesma probabilidade.
Representa o análogo continuo dos resultados igualmente prováveis. É usada nas situações em que não há razão para atribuir probabilidades diferentes a um conjunto possíveis de valores em um determinado intervalo. A área sob o gráfico de uma distribuição uniforme é igual a 1. O gráfico resulta em uma forma retangular. Há uma correspondência entre área e probabilidade. Se a probabilidade de x assumir valores num subintervalo é a mesma para qualquer outro subintervalo de mesmo comprimento, então, esta variável tem distribuição uniforme. A distribuição uniforme, embora apresentada como contínua, pode também abranger casos discretos. É o caso do lançamento de um dado, como mostrado abaixo.
A distribuição de probabilidade do lançamento de um dado, por exemplo, tem distribuição uniforme pois seus resultados são igualmente prováveis:
DISTRIBUIÇÃO UNIFORME
Probabilidade
1
/6
1
1
/6
1
1
/6
/6
1
/6
1
/6
/6
Área = 1
“x” P(x) 1 1 / 6 1 2 / 6 1 3 / 6 1 4 / 6 1 5 / 6 1 6 / 6 =1 ou 100%
Probabilidades no lançamento de um dado
P(x) lançar um dado
1
2
3
4
5
6
Faces do dado
Probabilidade na distribuição uniforme
Probabilidade
Para encontrar probabilidades na distribuição uniforme usamos a seguinte equação: Gráfico da distribuição uniforme EQUAÇÃO DA PROBABILIDADE UNIFORME ACUMULADA P(x) =
a b
b– a D–C
P(x), se D ≤ x ≤ C 0, caso contrário
Em que:
C D
Área P(x) procurada a – menor valor b – maior valor
Área do intervalo definido C – menor valor D – maior valor
Variável aleatória
Exemplo 1. Com base em históricos, o tempo de vôo de Chicago - Nova York pode ter qualquer valor no intervalo de 120 a 140 minutos. Considerando que cada um dos intervalos de 1 minuto é igualmente provável, determine: a)
A P(x) do avião chegar entre 126 e 131 minutos
b)
A P(x) do avião chegar em 136 minutos ou mais. Gráfico da distribuição do vôo Probabilidade
Probabilidade
Gráfico da distribuição do vôo 126 131
136 140
120 125 130 135 140
120 125 130 135 140
Tempo de vôo em minutos
Tempo de vôo em minutos
P(x) = b – a → D–C
131 – 126 140 – 120
= 0,25
P(x) = b – a → D–C
140 – 136 140 – 120
= 0,20
O Valor esperado (média) da distribuição uniforme é:
Uanderson Rebula de Oliveira
Ex=D + C 2
Ex. O tempo esperado de vôo entre Chicago – Nova York é: Ex = 140+120 = 130 minutos. 2
Probabilidade
- 22 -
DISTRIBUIÇÃO NORMAL (ABRAHAM DE MOIVRE 1667 ‐ 1754 ) É usada para distribuições SIMÉTRICAS e possui diversas aplicações, como calcular as probabilidades de PESOS e ALTURAS das pessoas, diâmetro e comprimento de peças em linhas de produção, tempo de vida útil de produtos e diversas outras medições de pesquisas científicas.
Aplicado para distribuições SIMÉTRICAS (Média=Moda=Mediana). Possui como parâmetro a MÉDIA e DESVIO PADRÃO. Também chamada de Curva Normal, Curva de Gauss e Curva em forma de Sino.
Para entender o conceito de uma Distribuição Normal, tomemos como exemplo a distribuição da vida útil de 340 lâmpadas produzidas pela PHILIPS:
Distribuição da vida útil de 340 lâmpadas produzidas pela PHILIPS
Média = Moda = 1000 horas Mediana =
120 Quantidade
100
Curva NORMAL ou Curva de GAUSS ou Curva em forma de SINO
100
80 70
60 40 20
70 40
40 10
10
0 700
800
900 1000 1100 1200 1300 Horas
Observe pela Distribuição Normal que o tempo de vida útil das lâmpadas:
Possui uma elevação em seu centro e pontas que vão tanto para direita quanto para a esquerda; A Média, Mediana e Moda (1000 horas) encontram‐se exatamente no meio da distribuição; A distribuição de valores menores que a Média (700, 800, 900) e maiores que a Média (1100, 1200, 1300) é simétrica, o que significa que se você dobrá‐la ao meio, suas partes serão como imagens refletidas por um espelho; Como a curva é simétrica em torno da Média, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade; A maioria dos dados é centralizada ao redor da média, de modo que quanto mais longe da média você se mover, cada vez menos pontos de dados você vai encontrar em ambos os lados.
Analisando a variabilidade
Quantidade
Analise a figura abaixo. Veja que a maior parte da vida útil das lâmpadas produzidas pela PHILIPS varia de 700 horas até 1300 horas, com uma boa parte das lâmpadas com vida útil de 900 a 1100 horas. Pensando como consumidor, você gostaria de se deparar com tamanha variabilidade quando for comprar um pacote de lâmpadas? Veja que uma concorrente (OSRAM) irá tentar fabricar lâmpadas com vida útil menos variável; a vida útil terá uma média de 1000 horas, mas suas lâmpadas terão uma vida útil mais consistente, variando de 920 a 1080 horas, com boa parte das lâmpadas com duração entre 980 e 1020 horas. OSRAM D istribuição da vida útil de 340 lâm padas Menor variação produzidas pela OSRAM 920 a 1080 horas OSRAM 120 100 100 PHILIPS 80 PHILIPS Maior variação 70 70 700 a 1300 60 40 40 40 20 10 10 0 700
800
900
1000
1100
1 2 00
1 3 00
Horas
Uanderson Rebula de Oliveira
Probabilidade
- 23 -
Quantidade
Em uma distribuição Normal, o Desvio padrão tem um significado especial, pois determina a distância da Média até um ponto dentro da distribuição, cada um com a mesma distância da Média. No caso abaixo, supomos (por fins didáticos) que o Desvio padrão do tempo de vida útil das lâmpadas é s=100 horas. 99,74% A regra empírica Na distribuição normal é possível determinar a posição s=100 95,44% da maioria dos valores, usando as distâncias de 1, 2 ou 3 Desvios padrões da Média para estabelecer alguns marcos. A regra que lhe permite fazer isso se chama 120 68,26% Regra empírica, que diz o seguinte: 100 Espera‐se que cerca de 68,26% dos valores encontram‐ 100 se dentro de 1 desvio padrão da média; 80 (no exemplo, 240 lâmpadas (70+100+70). 70 70 Espera‐se que 95,44% dos valores encontram‐se dentro 60 de 2 desvios padrões da média; S=100 S=100 (no exemplo, 320 lâmpadas: 40+70+100+70+40) 40 40 40 Espera‐se que 99,74% dos valores encontram‐se dentro 20 10 10 de 3 desvios padrões da média; (no exemplo, 340 lâmpadas: 10+40+70+100+70+40+10) 0 700 800 900 1000 1100 1200 1300 Estes resultados são aproximações. A regra empírica não pode ser aplicada às distribuições que não possuam Horas uma forma de montanha em seu centro. -3S -2S -1S x 1S 2S 3S ENCONTRANDO PROBABILIDADES NA DISTRIBUIÇÃO NORMAL
Quando se tem uma variável com distribuição normal pode‐se obter a probabilidade de essa variável assumir um valor em determinado intervalo, pela área sob a curva dentro dos limites do intervalo. Exemplo 1. Seja os tempos de vida útil das lâmpadas produzidas pela PHILIPS, sendo a Média de vida útil das lâmpadas de 1000 horas com Desvio padrão de 100 horas, ache a probabilidade de a lâmpada ter vida útil entre 1000 e 1150 horas, isto é, P(1000 < z < 1150). Probabilidade procurada P(1000 < Z < 1150) P= 0,4332
Z= 1,50 700
800
900
1000
1100
1200
1300
PARA ACHAR A PROBABILIDADE, SIGA 2 PASSOS:
1º PASSO. Calcule o número de desvios padrão que o valor “1150” se distancia da média “1000”. Para isto, utilizamos a equação abaixo, chamada “escore Z”. EQUAÇÃO ESCORE Z
z Escore Z
x - x s
Calculando o escore Z, temos: Média
Desvio padrão Variável aleatória procurada
z =
1150 - 1000 = 1,50 100
O resultado indica que 1150 está distante 1,50 desvios padrão da média. Use sempre 2 casas decimais. Veja demonstração da área de Z no gráfico acima.
O escore Z é uma medida que indica o número de desvios padrão de um valor a partir da média.
Uanderson Rebula de Oliveira
Probabilidade
- 24 -
2º PASSO. Com o escore Z de “1,50”, use a Tabela de Distribuição Normal Padrão para encontrar a probabilidade, como explicado abaixo:
Na 1ª coluna encontramos “1,5”. Em seguida, encontramos na 1ª linha “0”, que é o último algarismo de “1,50”. Na intersecção da linha e coluna encontramos 0,4332, o que indica que a probabilidade P(1000 < z < 1150) = 0,4332 ou 43,32%. Interpretação: espera‐se que 43,32% das lâmpadas tenham vida útil entre 1000 e 1150 horas.
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO
Z
Último dígito 0 1 2 3 4 5 6 7 8 9
A área constante na tabela corresponde a área à direita (sinal positivo): Área = 0,5
-z
-3S
-2S
+z
-1S
0
1S
2S
3S
motivo da qual desconsideramos o sinal negativo no z‐escore nas áreas à esquerda, pois a curva é simétrica em torno da Média, ou seja, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade. . A tabela não é de distribuição acumulada. Vamos ver alguns exemplos adiante.
Uanderson Rebula de Oliveira
Probabilidade
- 25 -
Exemplo 2. Continuando com os dados do exemplo 1, ache P(900 < z < 1000).
Quando partimos da média calculamos apenas um escore Z. Para lado esquerdo o escore Z sempre terá sinal negativo, que não será considerado, pois os dois lados são iguais em termos de probabilidades.
Probabilidade procurada P(900 < Z < 1000)
EQUAÇÃO ESCORE Z
z
P= 0,3413
x - x s
Calculando, temos:
Z= -1,00 700
800
900
z = 900 - 1000 = 100
-1,00 *
Probabilidade: na tabela temos: 0,3413
*Desconsidere o sinal negativo do escore Z
1000
1100
1200
1300
Interpretação: Espera‐se que 34,13% das lâmpadas tenham vida útil entre 1000 e 1100 horas.
Exemplo 3. Continuando com os dados do exemplo 1, ache P(900 < z < 1050).
Neste caso, calculamos dois escores Z e somamos as probabilidades:
ADIÇÃO DE PROBABILIDADES Probabilidade procurada P(900 < Z < 1050)
P= 0,5328
.
100
P1=0,3413
z1 = 900 - 1000 = - 1,00 0,3413
+
P 2=0,1915
z2 = 1050 - 1000 = 0,50 100 0,1915
Soma de probabilidades = 0,5328 Z2 =0,50
Z = -1,00 700 800 900 1000 1100 1200 1300 Interpretação: Espera‐se que 53,28% das lâmpadas tenham vida útil entre 900 e 1050 horas. 1
Exemplo 4. Continuando com os dados do exemplo 1, ache P(1050 < z < 1150).
Neste caso, calculamos dois escores Z (de 1000 a 1150; e de 1000 a 1050). Depois subtraímos as probabilidades:
SUBTRAÇÃO DE PROBABILIDADES
Probabilidade procurada P= 0,2417 P(1050 < Z < 1150) PZ2=0,1915
Z1 =
PZ1=0,4332
1150 - 1000 = 1,50 100 0,4332
‐‐ Z2 = 1050 - 1000 = 0,50 100 0,1915
Z1=1,5 0
Subtração probabilidades = 0,2417
Z2= 0,50
700
800
900
1000
1100
1200
1300
Interpretação: Espera‐se que 24,17% das lâmpadas tenham vida útil entre 1050 e 1150 horas. Exemplo 5. Continuando com os dados do exemplo 1, ache P( z < 850 horas)
Uanderson Rebula de Oliveira
Probabilidade
- 26 -
Ou seja, ache a probabilidade de a vida útil da lâmpada ser menor que 850 horas. Neste caso, P1 = 0,5 (meia área). Daí, calculamos Z2 e subtraímos as probabilidades: Probabilidade procurada P= 0,0668 P( Z < 850)
SUBTRAÇÃO DE PROBABILIDADES
Área = 0,5
P1 = (meia área)
P1=0,4332
0,5 ‐‐ Z2 = 850 - 1000 = -1,50 100 0,4332
PZ2=0,0668
Subtração probabilidades = 0,0668
Z1= -1,50
700
800
900
1000
1100
1200
1300
Interpretação: Espera‐se que 6,68% das lâmpadas tenham vida útil abaixo de 850 horas.
Exemplo 6. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. O fabricante oferece uma garantia de 800 horas, isto é, trocar as lâmpadas que apresentem falhas nesse período ou inferior. Fabrica 15.000 lâmpadas mensalmente. Quantas lâmpadas deverá trocar pelo uso da garantia, mensalmente? (adaptado de Morettin, pág 143 e 144) Probabilidade procurada P( Z < 800)
SUBTRAÇÃO DE PROBABILIDADES P1 = (meia área)
0,5 Garantia de 800 horas
‐‐ Z2 = 800 - 1000 = - 2,00 00 0,4772
Subtração de probabilidades = 0,0228
700 800 900 1000 1100 1200 1300 Interpretação: Constatamos que 2,28% (0,0228) das lâmpadas não atenderão a garantia. Então o fabricante deverá substituir mensalmente: 15.000 x 0,0228 = 342 lâmpadas.
Uanderson Rebula de Oliveira
Probabilidade
- 27 -
DISTRIBUIÇÃO BINOMIAL (JAKOB BERNOULLI 1654‐1705) É um experimento de probabilidades para os quais os resultados de cada tentativa podem ser reduzidos a dois resultados: SUCESSO ou FRACASSO.
Sucesso corresponde à probabilidade procurada enquanto que Fracasso à probabilidade não procurada, ou seja, o evento complementar. A palavra sucesso como usada aqui é arbitrária e não representa, necessariamente, algo bom.
A probabilidade Binomial é aplicada para Eventos independentes. Revisão de FATORIAL (O fatorial é usado na equação binomial, por isso a importância da revisão) FATORIAL é um procedimento matemático utilizado para calcular o produto de uma multiplicação cujos fatores são números naturais consecutivos, denotado por x!. Exemplos: 5! = 5.4.3.2.1 = 120 5! = 5.4.3! = 20 5! = 5.4.3! = 5 5! = 5.4.3! = 10 30! = 30.29.28 . ... .1 3! 3! 3! 4 3! 4 3! (5-3)! 3! (2)! 0! = 1 Para calcular 5! use a calculadora na tecla x! . Procedimento: Introduza 5 x! = 120
Há várias formas de encontrar probabilidade Binomial. Uma forma é usar um Diagrama de Árvore e a regra de multiplicação. Outra forma é usar a equação de probabilidade Binomial, onde usamos Fatorial. Podemos também usar tabelas.
EQUAÇÃO DA PROBABILIDADE BINOMIAL
P(x) =
n! . S x . F n-x x! (n - x)! F = probabilidade de Fracasso
n tamanho da amostra x nº sucessos na amostra
(evento complementar)
S = probabilidade de Sucesso (evento procurado)
Nota: p e q foram substituídos por S e F por fins didáticos.
Exemplo 1. Usando um Diagrama de Árvore (evento independente) e a equação da probabilidade Binomial Cirurgias de microfaturas no joelho têm 75% de chance de sucesso em pacientes com joelhos degenerativos. A cirurgia é realizada em 3 pacientes. Encontre a probabilidade de a cirurgia ser um sucesso em 2 pacientes. Pelo Diagrama de Árvore 1ª
2ª
3ª
S
S 0,25
F
Resultado
Sucessos
S
(S,S,S)
3
Probabilidade (ev. indepen) 0,75 . 0,75 . 0,75 = 0,422
0,25
F
(S,S,F)
2
0,75 . 0,75 . 0,25
= 0,141
+
S
(S,F,S)
2
0,75 . 0,25 . 0,75
= 0,141
+
(S,F,F)
1
0,75 . 0,25 . 0,25
= 0,047
(F,S,S)
2
0,25 . 0,75 . 0,75
= 0,141
F S 0,75
0,25
Pela equação Binomial
0,75 0,75
0,75
ou
S
F
(F,S,F)
1
0,25 . 0,75 . 0,25
= 0,047
0,25
S
(F,F,S)
1
0,25 . 0,25 . 0,75
= 0,047
F
(F,F,F)
0
0,25 . 0,25 . 0,25
= 0,016
F F
Há três resultados que têm dois sucessos e cada um tem uma probabilidade de 0,141. Aplicando a Regra da Adição, a probabilidade de a cirurgia ser um sucesso com dois pacientes é 0,422. (0,141 + 0,141 + 0,141)
A probabilidade de sucesso em 1 paciente será:
P(x)=
3! . 0,75 1 . 0,25 3 – 1 1! (3-1)!
≈ 0,141
Pelo Diagrama será (0,047+0,047+0,047)
Uanderson Rebula de Oliveira
P(x) =
+
n! . S x . F n - x x! (n - x)!
n=3 x=2 S = 0,75 F = 0,25 (evento complementar)
P(x)=
3! . 0,75 2 . 0,25 3 - 2 2! (3-2)!
P(x)= 0,422
Usando a equação Binomial obtemos o mesmo resultado pelo método do Diagrama de árvore, de 0,422.
A probabilidade de não ter sucesso será:
P(x)=
3! . 0,75 0 . 0,25 3 – 0 0! (3-0)!
≈ 0,016 Nota: x0 = 1
Probabilidade
- 28 -
Exemplo 2. Um levantamento estatístico realizado pelo IBGE constatou que a taxa de desemprego na cidade de Resende é da ordem de 13%. Ao tomarmos uma amostra de 30 pessoas, com reposição, qual a probabilidade de: a) 5 estarem desempregados b) 28 estarem empregados c) 27 estarem empregados
13% desemprego(Sucesso) 87% emprego(Sucesso)
P(x) = a) 5 estarem desempregados n = 30 x=5 S = 0,13 F = 0,87
Sucesso é o que se deseja estudar; Fracasso é o que não se deseja estudar
13% desemprego(Fracasso)
n! . S x . F n-x x! (n - x)!
b) 28 estarem empregados
c) 27 estarem empregados
n = 30 x = 28 S = 0,87 F = 0,13
30! . 0,13 5 . 0,87 30 - 5 5! (30-5)!
P(x)=
P(x)= 142506 . 0,000037 . 0,0307
P(x)=
P(x)=
87% emprego(Fracasso)
n = 30 x = 27 S = 0,87 F = 0,13
30! . 0,87 28 . 0,13 30-28 28! (30-28)! 435
P(x) ≈ 0,1627
. 0,0202 . 0,0169
P(x)=
30! . 0,87 27 . 0,13 30-27 27! (30-27)!
P(x)= 4060 . 0,0232 . 0,0021
P(x) ≈ 0,1489
P(x) ≈ 0,1978
Para calcular 0,135 use a tecla Xy ou ^ . Introduza 0,13 Xy 5 = 3,7‐05 que é o mesmo que 0,000037 Exemplo 3. Uma caixa contém 50 bolas, sendo 40 brancas e 10 pretas. Ao tirar 5 bolas, qual probabilidade de saírem: a) 2 bolas pretas n=5 x=2 10 S = 0,20 ( /50) F = 0,80 (40/50)
. 0,202 . 0,805–2 ≈ 0,2048 2! (5-2)!
P = 5!
b) 4 bolas brancas n=5 x=4 40 S = 0,80 ( /50) F = 0,20 (10/50)
P = 5!
. 0,804 . 0,205 –4 ≈ 0,4096
4! (5-4)!
Exemplo 4. Uma moeda é lançada 5 vezes. Qual a probabilidade de obter “3 caras” nessas cinco provas?
n = 5 (tamanho da amostra) x = 3 (nº sucessos da amostra) S = 0,50 ( = ½ a p de obter cara) F = 0,50 (= ½ a p de obter coroa)
P(x) =
5! __ . 0,503 . 0,505–3 ≈ 0,3125 3! (5-3)!
Exemplo 5. Um dado é lançado 6 vezes. Qual a probabilidade de que a “face 4” apareça 2 vezes?
n = 6 (tamanho da amostra) x = 2 (nº sucessos da amostra) 1 S = 0,17 ( = /6 a p de obter “4”) F = 0,83 (= 5/6 a p de não obter “4”)
P(x) =
6! __ . 0,172 . 0,836–2 ≈ 0,2057 2! (6-2)!
Exemplo 6. Dois times de futebol, A e B, jogam entre si 6 vezes. Qual a probabilidade de o time A ganhar 4 jogos?
n = 6 (tamanho da amostra) x = 4 (nº sucessos da amostra) S = 0,33 ( = 1/3 a p de ganhar)* F = 0,66 (= 2/3 a p de não ganhar)
P(x) =
6! __ . 0,334 . 0,666–4 ≈ 0,0774 4! (6-4)!
* 1/3 o time A pode ganhar, empatar ou perder. Logo, a probabilidade para cada evento é de 1/3 Exemplo 7. Em uma fábrica, 3 em cada 10 peças são defeituosas. Uma remessa a um determinado cliente possui 5 peças. Determine a probabilidade de que, nessa remessa: 2 estejam defeituosas n = 5 (tamanho da amostra) x = 2 (nº sucessos da amostra) 3 S = 0,30 ( = /10 a p peça ser defeituosa) 7 F = 0,70 (= /10 a p peça ser perfeita)
P(x) =
5! __ . 0,302 . 0,705–2 ≈ 0,3087 2! (5-2)!
Uanderson Rebula de Oliveira
4 estejam perfeitas n = 5 (tamanho da amostra) x = 4 (nº sucessos da amostra) 7 S = 0,70 ( = /10 a p peça ser perfeita) 3 F = 0,30 (= /10 a p peça ser defeituosa)
P(x) =
5! __ . 0,704 . 0,305–4 ≈ 0,3602 4! (5-4)!
Probabilidade
- 29 -
DISTRIBUIÇÃO DE POISSON (DENIS POISSON 1781‐1840) (LÊ‐SE POASSÓN) É um experimento de probabilidade que calcula o NÚMERO DE OCORRÊNCIAS de um evento em um DADO INTERVALO de TEMPO, DISTÂNCIA, ÁREA, VOLUME ou unidade similar.
O esquema abaixo ajuda a melhor interpretar o experimento de Poisson.
1
2
x
3
x
nº de ocorrências do evento
4...
x
x
← Intervalo de tempo, distância, área ou volume →
Regras: É aplicada caso os eventos ocorram com uma MÉDIA conhecida e cada evento seja independente. São exemplos: número de consultas a uma base de dados por minuto; número de falhas de um equipamento por hora; número de erros de tipografia em um formulário; número de defeitos em um m2 de piso cerâmico; número de buracos em um asfalto por km; número de acidentes por mês em uma rodovia etc. EQUAÇÃO DA PROBABILIDADE DE POISSON
P(x) = μ x μ = letra grega mi = Média
*
e -μ x!
Constante de Euler Venn 2,7182
nº de ocorrências procurada Média do nº de ocorrências (baseada em histórico)
Exemplo 1. A Média do número de acidentes por mês na rodovia Barra Mansa-Angra é de 3 acidentes por mês. Determine a probabilidade de que, em qualquer mês dado: a) 4 acidentes ocorram na rodovia b) 2 acidentes ocorram na rodovia c) Nenhum acidente ocorra na rodovia a) 4 acidentes ocorram na rodovia
μ=3 e = 2,7182 x=4 34
P(x) =
.
2,7182 -3 = 0,168 4!
b) 2 acidentes ocorram na rodovia
c) Nenhum acidente ocorra na rodovia
μ=3 e = 2,7182 x=2
μ=3 e = 2,7182 x=0
P(x) = 3 2
.
2,7182 -3 = 0,224 2!
P(x) = 3 0
.
2,7182 -3 = 0,0498 0!
Para calcular e ‐ μ use a mesma tecla Xy ou ^ . Introduza 2,7182 Xy ‐ 3 = 0,0497
Encontre e na calculadora Exemplo 2. Supondo que a Média do número de pessoas que acessam um caixa eletrônico de um banco durante uma hora é 5. Determine a probabilidade de, no mesmo período, ocorrerem:
P(x) = μ x
a) Menos de 2 acessos ao caixa eletrônico
a) Menos de 2 acessos ao caixa eletrônico
.
x!
e -μ
(ou seja nenhum acesso ou um acesso: P0 + P1 )
Neste caso, calcularemos a probabilidade de P0 e P1. Depois somamos as probabilidades. (Adição de Probabilidades) Nenhum acesso ao caixa
1 acesso ao caixa eletrônico
μ=5 e = 2,7182 x=0
μ=5 e = 2,7182 x=1
P0 = 5 0
P1 =
.
2,7182 -5 = 0,0067 0!
Uanderson Rebula de Oliveira
51
Adição de Probabilidades
P(x < 2) = P0 + P1 .
2,7182 -5 = 0,0337 1!
P = 0,0067 + 0,0337 = 0,0404
Probabilidade
- 30 -
DISTRIBUIÇÃO EXPONENCIAL
É um experimento de probabilidade que calcula o INTERVALO até a PRÓXIMA OCORRÊNCIA EM UM PROCESSO DE POISSON em um intervalo de tempo, distância, área, volume ou unidade similar.
Existe uma relação entre o modelo de Poisson e o Exponencial. A distribuição de Poisson é usada para calcular o número de ocorrências em um período; a distribuição Exponencial calcula o intervalo ate a próxima ocorrência. Veja abaixo:
1
2
x
x
3
nº de ocorrências do evento (Poisson)
4.
x
x Intervalo até a próxima ocorrência (Exponencial)
← Intervalo de tempo e distância
→
Exemplo Poisson número de acidentes em uma rodovia por mês; número de acessos a um caixa eletrônico/hora; número de defeitos em uma rodovia por Km.
Exemplo Exponencial tempo até ocorrer o próximo acidente na rodovia; tempo até ocorrer próximo acesso ao caixa eletrônico; comprimento até o próximo defeito na rodovia.
É aplicada caso os eventos ocorram com uma MÉDIA conhecida e cada evento seja independente. Como a exponencial é utilizada na modelagem de tempos decorridos entre dois eventos, tem ampla aplicação em estudos de confiabilidade na modelagem do tempo até a falha de um equipamento e tempo de vida de materiais.
EQUAÇÃO DA DISTRIBUIÇÃO EXPONENCIAL Para P > x (obter valor superior) Para P ≤ x (Obter valor igual ou inferior) Equação 1
1 * x P = e
1 * x P = 1 e
Equação 2
e = constante de Euller 2,7182
μ = média do intervalo
x = variável procurada
1
Adaptamos a equação de Poisson. O valor /µ da equação exponencial corresponde a média do intervalo entre as ocorrências. Por 1 exemplo, se a média de acidentes em uma rodovia é igual a 3 por mês, então o tempo médio entre os acidentes é /3 = 0,33 mês (ou 10 dias (0,33 x 30 dias). Da mesma maneira, se a média de atendimentos no caixa de uma loja é de 6 clientes/min, então o 1 tempo médio entre atendimentos é /6 = 0,166 min. (ou 10 segundos (0,1666 x 60seg).
Exemplo 1. O tempo médio que as pessoas acessam um caixa eletrônico de um banco é de 25 minutos. Determine a probabilidade de que o próximo acesso a este caixa : Dados: e = 2,7182 a) Seja superior a 40 minutos
b) Seja superior a 90 minutos
c) Seja inferior a 10 minutos
P >40min, use a equação 1
P > 90min, use a equação 1
P <10min, use a equação2
μ = 25 x = 40
μ = 25 x = 90
μ = 25 x = 10
A área sob o gráfico da distribuição exponencial é igual a 1 e resulta em uma forma assimétrica à direita (positiva), se estendendo de zero até ∞ (infinito).
1 * 90 = 0,0273 P = e 25
1 * 10 = 0,3296 P = 1 e 25
P(x) = 0,2019 (próximo acesso ao caixa superior a 40 minutos)
Probabilidade
1 * 40 = 0,2019 P = e 25
0
15
30
45
60
75
90
x
Tempo em minutos
Uanderson Rebula de Oliveira
Probabilidade
- 31 -
4 INTERVALO DE CONFIANÃ&#x2021;A
Uanderson Rebula de Oliveira
Probabilidade
- 32 -
Intervalos de Confiança
Um intervalo de confiança é uma faixa (ou um intervalo) de valores usada para se estimar o verdadeiro valor de um parâmetro populacional, com certa probabilidade.
Intervalos de Confiança para média
O intervalo de confiança baseia‐se na hipótese de que a distribuição normal. Então, o nível de confiança pode ser determinado com base nas probabilidades da distribuição normal:
Nível de confiança 0,95
0,95
A equação do intervalo de confiança para média é dado por:
IC x z
/ 2
s n
Ao usar o nível de confiança de 95%, temos:
0,95
‐ 0,4750 + 0,4750
/2 = ± 0,4750 → Z= ±1,96
Logo: IC
x 1,96
s n
x̄ z= ‐ 1,96 z= + 1,96 Pode‐se usar outros níveis de confiança:
Confiança desejada
Escore “Z” (da tabela padrão)
Equação
90%
P= 0,4500 → z = 1,65
IC x 1,65
99%
P= 0,4950 → z = 2,58
IC x 2,58
s n s
n
Mas, de onde vem 0,4750 e 1,96? Observe na tabela de Distribuição Normal Padrão que, se queremos ter 95% de confiança, basta encontrar a 0,95 probabilidade de 0,4750 ( /2). Então, identificamos o escore z, que é de 1,96.
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Último dígito Z 0 1 2 3 4 5 6 7 8 9 Z = 1,96 para 95% de confiança Se queremos ter 90% de confiança, basta encontrar 0,4500 (0,90/2) na tabela. Como não temos 0,4500, então identificamos a probabilidade mais próxima, que é 0,4505. Observe que o escore z é de 1,65.
Uanderson Rebula de Oliveira
Probabilidade
- 33 -
Exemplos de cálculos de Intervalos de Confiança – IC para média
1. De uma amostra de 40 clientes que frequentam um restaurante, constatou-se que a idade média é de 28 anos com desvio padrão de 9 anos. Construa um intervalo de confiança de 95% para a idade média da população. n = 40 25,21 30,79 ‐ 2,79 +2,79 s = 9 = 28 2,79 x ̄= 28 IC x z 28 1,96 n s = 9 40 24 25 26 27 28 29 30 31 32 z = 1,96
Interpretação: Você está 95% confiante que a idade média dos clientes que frequentam o restaurante está entre 25,21 anos e 31,79 anos.
2. Um analista de produção deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para a média populacional. n = 60 978,70 1021,30 ‐ 21,30 +21,30 100 = 1000 21,30 x ̄= 1000 IC x z s = 1000 1,65 n s = 100 60 970 980 990 1000 1010 1020 1030 z = 1,65
Interpretação: Você está 90% confiante que a média do tempo de vida útil das lâmpadas produzidas está entre 978,70 horas e 1021,30 horas.
Intervalos de Confiança para Proporções P O termo PROPORÇÕES tem relação com PORCENTAGENS. É a parte de um todo, em comparação com esse todo; fração. Exemplo: Um Analista Industrial fez estudo para determinar a proporção de lâmpadas defeituosas produzidas. Coletou uma amostra de 400 lâmpadas e 60 apresentaram defeitos. Neste caso, temos as seguintes proporções: Lâmpadas defeituosas (60)
Lâmpadas perfeitas (restantes = 340)
ˆp 60 0,15 400
ˆp 340 0,85 400
Então, 15% das lâmpadas estão defeituosas...
...e 85% das lâmpadas estão perfeitas
Observe que a população é constituída por elementos de dois tipos, isto é, cada elemento pode ser interpretado como Sucesso e Fracasso, além dos eventos ser independentes. Nestas condições, a variável aleatória segue uma distribuição Binomial.
Ocorre que, da mesma forma que o intervalo de confiança para média, frequentemente estamos interessados em estimar um intervalo de confiança para proporções populacionais.
Construindo Intervalo de Confiança para Proporções p Construir um intervalo de confiança para uma proporção populacional p é similar a construir um intervalo de confiança para a média populacional. Você começa com um ponto estimado e calcula a margem de erro E.
Equação do Intervalo de Confiança para Proporção p
ˆp( 1 ˆp ) IC p ˆp z n
A formação desta equação tem como princípio o método “Normal como aproximação da Binomial”
z = escore z da distribuição normal n = tamanho da amostra p̂ ‐ proporção estimada.
Exemplo. Um Analista Industrial deseja estimar a proporção de lâmpadas defeituosas produzidas. Coletou uma amostra de 400 lâmpadas e verificou que 15% estão defeituosas. Construa um Intervalo de Confiança de 95% para a proporção populacional.
p̂ = 0,15 n = 400 z = 1,96
0,15( 1 0,15 ) 0,15 0,034 IC p 0,15 1,96 400
11,6%
‐ 3,4% +3,4%
18,4%
11% 13% 15% 17% 19%
Interpretação: Você está 95% confiante que a proporção de lâmpadas defeituosas está entre 11,6% e 18,4%.
Uanderson Rebula de Oliveira
Probabilidade
- 34 -
REFERÊNCIAS BIBLIOGRÁFICAS ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2 ed. São Paulo: Cengage Learning, 2009. 597 p. BRUNI, Adriano Leal. Estatística para concursos. São Paulo: Atlas, 2008. 197p. COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 4 ed. São Paulo: Harbra, 2005. 399 p. CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p. FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003, 320 p. GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova abordagem – volume único. São Paulo: FTD, 2002. 712 p. HAZZAN, Samuel. Fundamentos da matemática elementar: Matemática financeira, comercial e estatística descritiva. Volume 11. 1 ed. São Paulo: Atual editora, 2004. 230p. HELP! Sistema de consulta interativa. Matemática. Rio de Janeiro: O globo, 1997. 319 p. Instituto Brasileiro de Geografia e Estatística – IBGE. A instituição. Disponível <http://www.ibge.gov.br/home/disseminacao/eventos/missao/default.shtm>. Acesso em 06 abr 2010.
em
LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p. LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p. LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p. LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999. 174 p. MANDIN, Daniel. Estatística descomplicada. 9 ed. Brasília: Vestcon, 2002. 227 p. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de Janeiro: LTC, 2003. 465 p. OLIVEIRA, Uanderson Rebula de. Ergonomia, higiene e segurança do trabalho. Resende-RJ: Apostila. Universidade Estácio de Sá, 2009. 199 p. Resumão – estatística. 2 ed. São Paulo: Barros, fischer & Associados, novembro 2006. 6 p. RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p. SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2 ed. São Paulo: Atlas, 1996. 189 p. SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p. SPIEGEL, Murray R. Estatística: resumo da teoria, 875 problemas resolvidos, 619 problemas propostos. São Paulo: McGraw-Hill do Brasil, 1977. 580 p. TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p. URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência moderna, 2010. 530p. VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p. WERKEMA, Maria Cristina Catarino. As ferramentas da qualidade no gerenciamento dos processos. Belo Horizonte: EDG, 1995. 128 p.
Uanderson Rebula de Oliveira
Probabilidade
- 35 -
SITES PARA CONSULTA www.brasilescola.com Instituto de pesquisa econômica aplicada - http://www.ipea.gov.br Instituto brasileiro de geografia e estatística - http://www.ibge.gov.br Associação Brasileira de Estatística - http://www.ime.usp.br/~abe/
www.ibope.com.br ANEXO I - LIVROS RECOMENDADOS
Um livro introdutório de estatística que inclui um estilo de escrita amigável, conteúdo que reflete as características importantes de um curso introdutório moderno de estatística, o uso da tecnologia computacional mais recente, de conjuntos de dados interessantes e reais, e abundância de componentes pedagógicos. O CD-ROM inclui os conjuntos de dados do Apêndice B do livro. Esses conjuntos de dados encontram-se armazenados em formato texto, planilhas do Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83. Inclui também programas para a calculadora gráfica TI-83 Plus®, o Programa Estatístico STATDISK (Versão 9.1) e um suplemento do Excel, desenvolvido para aumentar os recursos dos programas estatísticos do Excel.
Este livro diferencia-se dos tradicionais livros, materiais de referência e manuais de estatísticas, pois possui: Explicações intuitivas e práticas sobre conceitos estatísticos, ideias, técnicas, fórmulas e cálculos. Passo a passo conciso e claro de procedimentos que intuitivamente explicam como lidar com problemas estatísticos. Exemplos interessantes do mundo real relacionados ao cotidiano pessoal e profissional. Respostas honestas e sinceras para perguntas como “O que isso realmente significa?” e “Quando e como eu vou usar isso?” Neste livro você encontrará: Explicações em português de fácil entendimento. Informações fáceis de localizar e passo-a-passo. Ícones e outros recursos de identificação e memorização. Folha de cola para destacar com informações práticas. Listas dos 10 melhores relacionados ao assunto. Um toque de humor e diversão. Onde comprar: www.submarino.com.br
Uanderson Rebula de Oliveira
Probabilidade
- 36 -
ANEXO II - SOFTWARE BIOESTAT
Texto extraído da tese de doutorado em Engenharia de Ualison Rebula de Oliveira Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o MINITAB (TRIOLA, 2005). Assim, buscando‐se recursos computacionais que facilitassem o tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na Internet que oferecem programas em Javascript para cálculos on‐line, a exemplo da página na Internet www.stat.ucla.edu. Após análise de pós e contras de cada aplicativo pesquisado, selecionou‐se o pacote estatístico BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos não‐paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível na atualidade para o cálculo do qui‐quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0 e possuir mais de 20 anos de criação.
INTERFACE BIOESTAT Baixar software: www.mamiraua.org.br
Uanderson Rebula de Oliveira
Probabilidade
- 37 -
Anexo III - ESTATÍSTICA NO EXCEL O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo excel, bastando inserir os valores da variável de interesse.
Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos Lapponi. WWW.SUBMARINO.COM.BR 4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus ‐ Acompanha CD‐ROM com Planilhas, Modelos, Simuladores etc. para Excel. O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade, Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD‐Rom, ou modificando‐os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam conhecer e aprender a utilizar os recursos de Estatística disponíveis. TÓPICOS • • • • • • • • • • • • • • •
DADOS, VARIÁVEIS E AMOSTRAS DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE DISPERSÃO/VARIAÇÃO PROBABILIDADE CORRELAÇÃO VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS DISTRIBUIÇÕES CONTÍNUAS COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS DISTRIBUIÇÃO AMOSTRAL ESTIMAÇÃO TESTE DE HIPÓTESES TESTES DE HIPÓTESES COM DUAS AMOSTRAS ANÁLISE DA VARIÂNCIA REGRESSÃO LINEAR e AUSTE NÃO LINEAR
Uanderson Rebula de Oliveira
Probabilidade
LIVROS PUBLICADOS POR Uanderson Rébula de Oliveira
QUERO COMPRAR OS LIVROS
Ver amostras dos livros
Esses ebooks estão disponíveis na livraria Saraiva por preços bem acessíveis. Além disso, você pode imprimir, desenhar, esquematizar ou usar qualquer leitor pdf, pois a maioria deles encontra-se desbloqueado. Prof. Uanderson Rébula. Doutorando em Engenharia. Professor universitário. Vivência de 21 anos em ambiente industrial. uanderson.rebula@yahoo.com.br http://lattes.cnpq.br/1039175956271626 https://br.linkedin.com/in/uandersonrebula