Livro pdf - Análise Estatística e Probabilidade - Prof. MSc Uanderson Rébula

Page 1

Administração

Uanderson Rebula de Oliveira

-1-

Análise Estatística uanderson.rebula@yahoo.com.br Uanderson Rebula de Oliveira

Análise Estatística


Administração

-2-

Administração - 2015

UANDERSON REBULA DE OLIVEIRA Mestrando em Engenharia de Produção pela Universidade Estadual Paulista - UNESP Pós-graduado em Controladoria e Finanças-Universidade Federal de Lavras-UFLA Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC Técnico em Segurança do Trabalho-ETPC Operador Siderúrgico e Industrial-ETPC Atividades presentes Consultor em Treinamento e Desenvolvimento Empresarial. . Pesquisador na área de Logística Reversa. Gestor de Operações de Pós Graduação na Universidade Estácio de Sá. Professor na UNIFOA no curso de Pós graduação em Engenharia de Segurança do Trabalho. Professor da Universidade Estácio de Sá nas disciplinas de Gestão de Estoques, Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística, Controle Estatístico da Qualidade, Análise Estatística, Ergonomia, Higiene e Segurança do Trabalho, Gestão de Segurança e Análise de Processos Industriais. Professor na Associação Educacional Dom Bosco para os cursos de Administração, Logística, Engenharia de Produção e Engenharia Metalúrgica e Gestão da Produção.

Atividades passadas Ex-Professor na Universidade Barra Mansa (2010-2012) nos cursos de Engenharia de Produção/Petróleo. Ex-professor conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Ex-professor em escolas técnicas (2006-2010) nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI (2007). Ex funcionário da CSN por 20 anos (1993-2014), onde atuou por 10 anos como Operador e Líder de Produção em vários setores e por 10 anos no setor de Segurança do Trabalho. Ex-membro do IBS–Instituto Brasileiro de Siderurgia em grupo de trabalho em assuntos pertinentes a Segurança do Trabalho . Currículo completo: http://lattes.cnpq.br/1039175956271626 br.linkedin.com/in/uandersonrebula/

EMENTA: Probabilidades e seus eventos. Probabilidade condicional. Eventos independentes. Teorema de Bayes. Variáveis aleatórias: distribuição, média e desvio padrão. Distribuições de probabilidades discretas e contínuas. Correlação e Regressão. Teste de hipóteses. OBJETIVO: Possibilitar aos estudantes o acesso a conceitos e procedimentos fundamentais da metodologia estatística, como ferramenta de suporte à tomada de decisão e à abordagem cientifica de populações, sistemas e processos, nas áreas de engenharia, indústria, comercio e serviços.

Uanderson Rebula de Oliveira

Análise Estatística


“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil

Faça o curso online no Udemy

Estatística I (para leigos): aprenda fácil e rápido!

Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br

Saiba mais Clique aqui

www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.


Prof. MSc. Uanderson Rébula de Oliveira

Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO

CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ

Sumário


Administração

-3-

Sumário 1 – PROBABILIDADE CONCEITOS BÁSICOS DE PROBABILIDADE , 5 Conceitos, experimento aleatório e espaço amostral, 5 Princípio fundamental da contagem, 6 Eventos e Probabilidade básica, 8 Probabilidade com eventos complementares, 9

ADIÇÃO DE PROBABILIDADES, 10 Probabilidade com eventos mutuamente exclusivos, 10 Probabilidade com eventos NÃO mutuamente exclusivos, 10

PROBABILIDADE CONDICIONAL E MULTIPLICAÇÃO DE PROBABILIDADES, 11 Probabilidade com eventos dependentes, 10 Multiplicação de probabilidade com eventos dependentes, 13 Multiplicação de probabilidade com eventos independentes, 14 Teorema de Bayes, 15

2 – VARIÁVEIS ALEATÓRIAS E MODELOS PROBABILÍSTICOS VARIÁVEIS ALEATÓRIAS, 17 Distribuições de Probabilidades e representação gráfica, 17 Valor Esperado, 19 Variância e Desvio Padrão, 20

MODELOS, 21 Modelo Binomial, 21 Modelo de Poisson, 25 Poisson como aproximação para a Binomial, 27

Modelo Normal, 28

3 – CORRELAÇÃO E REGRESSÃO CORRELAÇÃO LINEAR SIMPLES, 34 Introdução e Diagrama de Dispersão, 34 Correlação Linear, 34 Coeficiente de correlação de Pearson, 35

REGRESSÃO LINEAR SIMPLES, 37 Introdução, 37 Ajustamento da reta aos pontos grafados, 37

4 – TESTE DE HIPÓTESE Conceitos introdutórios, 40 Teste de hipótese para média (amostras grandes),41 Teste de hipótese para média (amostras pequenas), 42 Teste de hipótese para proporção, 43 Teste para duas amostras – conceitos introdutórios, 45 Teste para diferença de duas médias (dependente),45 Teste para diferença de duas médias (independente), 47

REFERÊNCIAS BIBLIOGRÁFICAS, 48 ANEXO I – INDICAÇÃO DE MATERIAL DIDÁTICO PARA AUXÍLIO AS AULAS, 49 ANEXO II – Software Bioestat , 50 ANEXO III – ESTATÍSTICA NO EXCEL, 51 ANEXO IV – REVISÃO DE MEDIDAS DE VARIAÇÃO, 52

Uanderson Rebula de Oliveira

Análise Estatística


Administração

-4-

CAPÍTULO 1 PROBABILIDADE

É possível quantificar o acaso?

Uanderson Rebula de Oliveira

Análise Estatística


Administração

-5-

CONCEITOS BÁSICOS DE PROBABILIDADES Probabilidade é uma medida numérica que representa a chance de um evento ocorrer. Dois exemplos clássicos (por sua simplicidade) do conceito de Probabilidade são: Ao lançar um dado, qual a probabilidade de obter “4”?

Ao lançar a moeda, qual a probabilidade de dar “cara”?

Como representar numericamente as chances desses eventos? Conhecidas certas condições, é possível responder a essas duas perguntas, antes mesmo da realização desses experimentos. A teoria da probabilidade surgiu para tentar calcular a “chance” de ocorrência de um resultado imprevisível, porém, pertencente a um conjunto de resultados possíveis. Todos os dias somos confrontados com situações, que nos conduzem a utilizar a teoria de probabilidade: Dizemos que existe uma pequena probabilidade de ganhar na loteria; Dizemos que existe uma grande probabilidade de não chover num dia de verão; O gerente quer saber a probabilidade de o projeto ser concluído no prazo; O analista financeiro quer saber a chance de um novo investimento ser lucrativo; O gerente de marketing quer saber as chances de queda de vendas se aumentar os preços; O eng. produção quer saber a probabilidade de um novo método de montagem aumentar a produtividade. É POSSÍVEL QUANTIFICAR O ACASO. Desse modo, se houver probabilidades disponíveis, podemos determinar a possibilidade de cada um dos eventos ocorrer. Para continuar o estudo de probabilidades, três conceitos são importantes: Experimento aleatório, espaço amostral e eventos.

Experimento aleatório Experimento cujo resultado é imprevisível, porém pertencente a um conjunto de resultados possíveis. É o fenômeno que estamos interessados em observar, e cada resultado dele é uma experiência. Embora não saibamos qual o resultado que irá ocorrer, conseguimos descrever todos os resultados possíveis. Exemplos: EXPERIMENTO Jogar uma moeda Lançar um dado Jogar uma partida de futebol Fazer um contato de vendas Selecionar uma peça para inspeção Nascimento de uma criança

Resultados possíveis Cara ou Coroa 1, 2, 3, 4, 5, 6 Ganhar, empatar, perder Comprar, não comprar Defeituosa, não defeituosa Masculino, feminino

A principal característica do experimento é ser casual, no sentido de que, apesar de conhecermos seus possíveis resultados, não podemos dizer com certeza o que vai ser obtido. Quantas e quais as possibilidades de resultados desses experimentos são questões que tentamos responder para avaliar as chances de eles acontecerem.

Espaço amostral É o conjunto de todos os resultados possíveis de um experimento aleatório. Note que, ao especificar todos os resultados possíveis, identificamos o espaço amostral, representado por S. São exemplos de espaços amostrais: EXPERIMENTO ALEATÓRIO

Jogar uma moeda Lançar um dado Jogar uma partida de futebol Fazer um contato de vendas Selecionar uma peça para inspeção Nascimento de uma criança

Uanderson Rebula de Oliveira

Espaço amostral S = { Cara, Coroa} S = {1, 2, 3, 4, 5, 6} S = {Ganhar, Empatar, Perder} S = {Comprar, Não comprar} S = {Defeituosa, Não defeituosa} S = {Masculino, Feminino}

Análise Estatística


Administração

-6-

Princípio Fundamental da Contagem (principio multiplicativo) O problema de determinar o espaço amostral surge quando as possibilidades de combinações são muitas e podem nos deixar confusos (Ex.: ao lançar 2 dados, quais os resultados possíveis?). Para resolver esta questão recorremos à organização da contagem denominada Princípio Fundamental de Contagem, representada graficamente pelo Diagrama de árvore, onde mostra todos os possíveis resultados de um acontecimento. Exemplo clássico: Suponha que José tenha 2 bermudas (preta e vermelha) e 3 camisas (azul, preta e verde). De quantas maneiras diferentes (resultados possíveis) José pode se vestir usando uma bermuda e uma camisa? Utilizando um diagrama de árvore teremos: Figura. Diagrama de árvore

BERMUDAS

CAMISAS

2 possibilidades 2

1ª etapa

2ª etapa

3 possibilidades x

3

=

Total de 6 possibilidades (espaço amostral)

Notas básicas do Princípio multiplicativo Observe que há duas possibilidades de escolher uma bermuda. Para cada uma delas, três possibilidades de escolher uma camiseta. Logo, o número total de maneiras diferentes de José se vestir é: 2 x 3 = 6 Como o número de resultados foi obtido por meio de uma multiplicação, dizemos que foi aplicado o princípio multiplicativo. O princípio multiplicativo constitui a ferramenta básica para determinar o nº de todas as possibilidades (espaço amostral) de um experimento sem que seja necessário enumerar cada etapa. Para isto, basta conhecemos o número de possibilidades de cada etapa e, multiplicando todos esses números, teremos o número total de possibilidades. Portanto, temos abaixo a fórmula:

2

x

3

Então, ao lançar os dados abaixo, quantos resultados são possíveis?

Lançar dois dados

Três dados → 6x6x6 = 216 Quatro dados → 6x6x6x6 = 1.296 5 Cinco dados → 6 = 7.776 8 Oito dados → 6 = 1.679.616 10 Dez dados → 6 = 60.466.176

Uanderson Rebula de Oliveira

6

1

1 2 3 4 5 6

( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )

2

1 2 3 4 5 6

( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )

3

1 2 3 4 5 6

( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )

4

1 2 3 4 5 6

( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )

5

1 2 3 4 5 6

( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )

6

1 2 3 4 5 6

( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )

Ao lançar dois dados, quantos resultados serão possíveis? Observe pelo diagrama de árvore ao lado que, quando dois dados são lançados, cada um deles tem seis resultados possíveis; juntos, esses seis resultados possíveis para cada dado produzem 36 (6x6) combinações, ou seja, 36 pares possíveis.

=

Análise Estatística


Administração

-7-

Suponha que você tenha 2 calças (preta, branca), 3 camisas (verde, amarela, rosa) e 3 calçados (sapato, tênis e chinelo). De quantas maneiras diferentes (resultados possíveis) você pode se vestir usando uma calça, uma camisa e um calçado? CALÇA

CAMISA

CALÇADO

verde preta

amarela rosa

Maneiras de se vestir

verde branca

amarela rosa

2

x

3

Resultados (espaço amostral)

x

sapato tênis chinelo

( pre, ver, sap ) ( pre, ver, ten ) ( pre, ver, chi )

sapato tênis chinelo

( pre, ama, sap ) ( pre, ama, ten ) ( pre, ama, chi )

sapato tênis chinelo

( pre, ros, sap ) ( pre, rosa, ten ) ( pre, rosa, chi )

sapato tênis chinelo

( bra, ver, sap ) ( bra, ver, ten ) ( bra, ver, chi )

sapato tênis chinelo

( bra, ama, sap ) ( bra, ama, ten ) ( bra, ama, chi )

sapato tênis chinelo

( bra, rosa, sap ) ( bra, rosa, ten ) ( bra, rosa, chi )

3

=

18 possibilidades

Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6,7 ou 8 meses). Quais os resultados possíveis? Qual o prazo mais provável para conclusão total do projeto?

Etapa 1-Projeto

2 meses

Projeto

É mais provável que o projeto seja concluído dentro de prazo de 10 meses.

3 meses

4 meses

3

x

Etapa 2-Construção

Espaço amostral

6 meses

(2,6) = 8 meses

7 meses

(2,7) = 9 meses

8 meses

(2,8) = 10 meses

6 meses

(3,6) = 9 meses

7 meses

(3,7) = 10 meses

8 meses

(3,8) = 11 meses

6 meses

(4,6) = 10 meses

7 meses

(4,7) = 11 meses

8 meses

(4,8) = 12 meses

3

=

9

Sabendo que os números do Seguro Social são constituídos de 9 dígitos e cada um deles tem 10 resultados possíveis (0,1,2...9), determine o número de Seguros diferentes que podem ser formados.

2 0 1 . 9 10 x

5 0 1 . 9 10 x

7 6 0 0 1 1 . . 9 9 10 x 10 x

Uanderson Rebula de Oliveira

3 7 2 7 0 0 0 0 1 1 1 1 . . . . 9 9 9 9 10 x 10 x 10 x 10 x

8 0 1 . 9 10 =

Espaço amostral Aplicando o princípio multiplicativo, temos: 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 x 10 1.000.000.000 (1 bilhão de resultados possíveis)

1.000.000.000

Análise Estatística


Administração

-8-

Eventos É o resultado possível dentro de um espaço amostral.

Lançar um dado observar sua face

Evento A → {sair número dois} → A={2}.

e

Evento B → {sair número maior que 4} → B={5,6}.

Evento C → {sair número par} →C={2,4,6}. S = {1,2,3,4,5,6} Evento D → {sair número menor que 2} → D={1}. O Diagrama de Venn pode representar graficamente o espaço amostral e o evento.

Evento A → {sair número dois} → A={2}.

A

Evento

2

Espaço amostral

S

1

Evento C → {sair número par} → C={2,4,6}.

C

Evento

34 5 6

1

2

S = {1,2,3,4,5,6} A = {2}

4

S

6

Espaço amostral

3 5

S = {1,2,3,4,5,6} C = {2,4,6}

A área do círculo representa o Evento e a área do retângulo representa todos os elementos de um espaço amostral.

Probabilidade básica P

A probabilidade é dada por:

n( A ) S

nº elementos no evento A Espaço amostral

Exemplos:

1) No lançamento de um dado, qual a probabilidade de o resultado ser o número 2? A = {2} S = {1,2,3,4,5,6}

→A=1 →S=6

P(A) = 1 6

= 0,1666 ou 16,66%

a probabilidade de o resultado ser o “2” é de 1 chance em 6 ou 0,1666 ou 16,66%.

2) No lançamento de uma moeda, qual a probabilidade de o resultado ser Cara? A = {Ca} S = {Ca,Co}

→ A=1 → S=2

P(A) = 1 2

= 0,50 ou 50%

3) Uma urna tem 10 bolas, sendo 8 pretas e 2 brancas. Pegando-se uma bola, qual a probabilidade de ela ser branca? A = {B,B} S = {P,P,P,P,P,P,P,P,B,B}

→ →

A= 2 S = 10

P(A) = 2 10

= 0,20 ou 20%

4) Em um lote de 200 peças, 25 são defeituosas e 175 são boas. Se um Analista Industrial retira uma peça, qual a probabilidade de essa peça ser defeituosa? A = {D,D,D,D,D...} S = {B,B,B,B,B,B...D,D}

→ →

A = 25 S = 200

P(A) = 25 = 0125 ou 12,5% 200

5) Das 120 notas fiscais emitidas por uma empresa, 16 tem erros de impressão. Se um Auditor seleciona uma nota fiscal, qual a probabilidade de essa nota apresentar erros de impressão? A = {NE, NE, NE ...} S = {NB,NB, NB...NE,NE}

→ →

A = 16 S = 120

P(A) = 16 = 0125 ou 12,5% 120

NE = Nota com erro ; NB = Nota boa

Uanderson Rebula de Oliveira

Análise Estatística


Administração

-9figuras

Observe as cartas de um baralho de 52 cartas, abaixo: Naipes

Valete

Dama

Reis

Ás

(Paus) (preta) 13 cartas

(ouros) (vermelha) 13 cartas

(Espadas) (preta) 13 cartas

(Copas) (vermelha) 13 cartas Quando retiramos uma carta de um baralho de 52 cartas, qual a probabilidade de o resultado: Sair um Ás de Ouros: A = {Ás} S= {52 cartas}

Sair um Reis: temos 4 Reis no baralho. Então:

temos 1 Ás de Ouros no baralho, então:

→ A= 1 → S = 52

P(A) = 1 = 0,019 52

A = {R,R,R,R} S= {52 cartas}

→ A= 4 → S = 52

P(A) = 4 = 0,076 52

Interpretação de valores probabilísticos As probabilidade são sempre são atribuídos em uma escala de 0 a 1 (ou 0% a 100%)

0

Impossível

0,5 (50%)

pouco provável

1 (100%)

provável

Números que não podem representar probabilidade: 10 /5 120% -0,4

Certo

Chance 50-50

Probabilidade com Eventos complementares É a probabilidade com os resultados que não fazem parte do evento (A). Eventualmente queremos saber a probabilidade de um evento não ocorrer. Portanto, é o evento formado pelos resultados que não pertencem ao evento A. Sendo P( A ) a probabilidade de que ele não ocorra e P(A) a probabilidade que ocorra, temos:

Probabilidade com Evento complementar

P( A ) = 1 – P(A)

Probabilidade do evento não ocorrer

Probabilidade evento (A)

Exemplo. No lançamento de um dado, qual a probabilidade de o resultado:

A={2} S={1,2,3,4,5,6}

Pela probabilidade (A)

Probabilidade com evento complementar

ser o número 2

não ser o número 2

→A=1 →S=6

P(A) = 1 = 0,1666 6

P( A ) = 1 – P(A) = 1 – 0,1666

→ 0,8333 ou 83,33%

O “Diagrama de Venn” abaixo ilustra a relação entre o espaço amostral, o evento A e seu complemento A :

P(A) = 16,66% Probabilidade (A)

A

S

1

P(

) = 83,33% Probabilidade Complementar

3

2 5 4

6 AAA equação 1- P( ) fundamenta-se na interpretação dos valores probabilísticos: 0

1 0,1666

Uanderson Rebula de Oliveira

= 0,8333

Análise Estatística


Administração

- 10 -

ADIÇÃO DE PROBABILIDADES Probabilidade com Eventos mutuamente exclusivos É a probabilidade com eventos que não ocorrem ao mesmo tempo. Ou ocorre A ou ocorre B (A ou B). A ocorrência de um evento impossibilita a ocorrência do outro. Dois eventos são mutuamente exclusivos quando a ocorrência de um evento exclui a ocorrência de outro. É impossível ocorrer os eventos A e B ao mesmo tempo. Então, o termo “ou” indicará “adição de probabilidades”. Para encontrar a probabilidade de um evento ou outro ocorrer, adicionamos as probabilidades de cada evento: P(A ou B) = P(A) + P(B).

Exemplo 1. Ao lançar um dado, a probabilidade de se tirar o 2 ou 5 é:

A

3

B 2

5

ou

S

“ou” indica Adição de probabilidades. P(A ou B) = P(A) + P(B)

6

A = {2} B = {5} S = {1,2,3,4,5,6}

4 1

Exemplo 2. Ao retirar uma carta de um baralho de 52 cartas, a probabilidade de sair um Rei ou uma Dama é: A = {R,R,R,R } B = {D,D,D,D} S = {52 cartas

→ A=4 → B=4 → S = 52

→ A=1 → B=1 → S=6

P(A ou B) = 1 + 1 = 2 = 0,3333 6 6 6

Exemplo 3. Numa urna estão 10 bolas, sendo 2 pretas (P), 5 amarelas (A) e 3 verdes (V). Pegando-se uma bola, qual a probabilidade de ela ser preta ou verde?

P(AouB) = 4 + 4 = 8 = 0,1538

A = {P,P } B= {V,V,V} S = {10}

52 52 52

→ A=2 → B=3 → S = 10

P(AouB) = 2 + 3 = 5 = 0,5

10 10 10

Probabilidade com Eventos NÃO mutuamente exclusivos É a probabilidade com Eventos que podem ocorrer ao mesmo tempo. Ou ocorre A ou B ou AMBOS (A e B). A ocorrência de um NÃO impossibilita a ocorrência do outro. Dois eventos NÂO são mutuamente exclusivos quando a ocorrência de um evento não exclui a ocorrência de outro. É possível ocorrer os eventos A e B ao mesmo tempo. O termo “ou”, indicará “adição” e “e” indicará “ambos”

Exemplo 1 Ao lançar um dado, a probabilidade de obter um número ímpar ou menor que 3 é: Menor que 3

ímpar

A

S

B

3 1

5

2

6 4

Os eventos A e B não são mutuamente exclusivos, pois “1” ocorre em A e B (ambos). 3

2

5

Se aplicarmos P(AouB) = P(A) + P(B) teremos: /6 + /6 = /6. Observe no diagrama que 4 este resultado está incorreto, pois P(AouB) = /6. Este erro foi provocado pela dupla contagem de “1”. Neste caso, ajustaremos a regra da soma para evitar a dupla contagem. A equação será:

P(AouB) = P(A) + P(B) – P(A e B)

A e B (Ambos)

Então, a probabilidade de lançar um número ímpar ou menor que 3 será: A = {1,3,5} B = {1,2} A e B = {1} S = {1,2,3,4,5,6}

→ → → →

A=3 B=2 AeB=1 S=6

P(AouB) = 3 + 2 - 1 = 4 = 0,6666

6

6

6

6

Exemplo 2 Numa pesquisa sobre a preferência de dois jornais, consultamos 470 pessoas, sendo que 250 lêem o jornal A, 180 lêem o jornal B e 60 lêem os jornais A e B. Escolhendo uma pessoa ao acaso, qual a probabilidade de que seja:

Jornal

B

A

Jornal

60

a) Leitor dos jornais A ou B? A = {250} B = {180} A e B = {60} S = {470}

P(A ou B) = P(A) + P(B) – P(A e B) 250 + 180 – 60 = 370 = 0,7872 470 470 470 470

AeB * Regra da soma para três eventos: P(A ou B ou C) = P(A) + P(B) + P(C) - P(A e B) - P(B e C) + P(A e B e C)

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 11 -

PROBABILIDADE CONDICIONAL E MULTIPLICAÇÃO DE PROBABILIDADES Probabilidade com Eventos dependentes É a probabilidade do Evento B ocorrer, dado que o evento A já tenha ocorrido. 

Diz-se probabilidade condicional quando a ocorrência de um evento está condicionada à ocorrência do outro. Portanto, os eventos são dependentes. A probabilidade de um é alterada pela existência do outro. A probabilidade condicional do Evento B, dado que A ocorreu é denotada por:

A ocorreu (lê-se “probabilidade de B, dado que A ocorreu”) P(B|A) = P(A e B) P(A) → espaço amostral de A, “reduzido” Ao calcular P(B|A) tudo se passa como se P(A) fosse o novo espaço amostral “reduzido” dentro do qual, queremos calcular a probabilidade de B. Não utilizamos o espaço amostral original.

Exemplo 1. Ao lançar um dado, observou-se um número maior que 2 (evento A ocorreu). Qual a probabilidade de esse número ser o “5” (evento B)?

B

A

A = {3, 4, 5, 6}

3

4 Novo espaço amostral

O evento A ocorreu e queremos saber o B (dentro de A):

Ser o 5

Maior que 2

B = {5}

5

6

P(B|A) será a probabilidade de ocorrer o número 5 no novo espaço amostral reduzido de A. Então:

1 2

A e B = {5} → 1 A = {3,4,5,6} → 4

P(B|A) = P(A e B) → 1 = 0,25 P(A) 4

Observe que não usamos o espaço amostral original S.

Espaço amostral original S = {1,2,3,4,5,6}

EXEMPLO 2 Ao lançar um dado, observou-se um número maior que 1 (evento A ocorreu). Qual é a probabilidade de esse número ser ímpar (Evento B)? Maior que 1

B

A

A = {2, 3, 4, 5, 6}

2

4 Novo espaço amostral

O evento A ocorreu e queremos saber o B (dentro de A):

ímpar

6

B = {3, 5}

3 5

P(B|A) será a probabilidade de ocorrer número ímpar no novo espaço amostral reduzido de A. Então:

1

A e B = {3,5} → 2 A = {2,3,4,5,6} → 5

Espaço amostral original S = {1,2,3,4,5,6}

P(B|A) = P(A e B) → 2 = 0,40 P(A) 5

Observe que não usamos o espaço amostral original S

EXEMPLO 3 Duas cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 2ª carta seja uma dama, dado que a 1ª seja um rei. (assuma que o rei está sem reposição). Solução. Em razão de a primeira carta ser um rei e não ser a resposta, o baralho restante tem 51 cartas, 4 das quais são dama. Então:

P (B|A) = 4 = 0,078 51

EXEMPLO 4 Cinco cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 5ª carta seja uma dama. Dado que a 1ª = rei; 2ª = dama; 3ª = 8 ; 4ª = Ás. (assuma que não há reposição). Solução. Em razão de a 1ª = rei; 2ª = dama; 3ª = 8 ; 4ª = Ás, o baralho restante tem 48 (52-4) cartas, 3 das quais são dama. Então:

P (E|A,B,C,D) = 3 = 0,062 48 Note que o espaço amostral original foi reduzido

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 12 -

EXEMPLO 5 Numa pesquisa sobre a preferência de dois jornais, consultamos 470 pessoas e o resultado foi o seguinte: 250 lêem o jornal A, 180 lêem o jornal B, 60 lêem os jornais A e B. Escolhendo uma pessoa ao acaso, qual a probabilidade de: a) Um leitor do jornal A, também ser leitor do B?

Jornal

Novo espaço amostral

B

A 190

b) Um leitor do jornal B, também ser leitor do A?

Jornal

Jornal

B

A 190

60

Jornal Novo espaço amostral

60 120

120

O evento A ocorreu e queremos saber o B. Então, denotamos P(B|A). Dentre os leitores do Jornal A, devemos destacar os que lêem B; logo, o espaço amostral desse evento é A (190+60=250). Então, a probabilidade é:

A e B = {60} → 60 A= {190+60} → 250

P(B|A)=P(A e B) → 60 = 0,24 P(A) 250

O evento B ocorreu e queremos saber o A. Então, denotamos P(A|B). Dentre os leitores do Jornal B, devemos destacar os que lêem A; logo, o espaço amostral desse evento é B (120+60=180). Então, a probabilidade é:

A e B = {60} → 60 B= {120+60} → 180

P(A|B)=P(A e B) → 60 = 0,33 P(B) 180

EXEMPLO 6. O quadro abaixo mostra os resultados de um estudo no qual os pesquisadores examinaram o QI de uma criança e a presença de um gene específico nela. Gene Gene não presente presente QI alto QI normal

33 39 72

19 11 30

A probabilidade de que a criança tenha um QI alto (Evento B), dado que a criança tenha o gene (Evento A) é? 52 50 102

Solução. Há 72 crianças que têm o gene. Então, o espaço amostral consiste dessas 72 crianças. Dessas, 33 tem QI alto. Então:

P (B|A) = 33 = 0,458 72

EXEMPLO 7 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Ao selecionar duas peças em sequência, sem reposição, qual a probabilidade de: a 2ª peça ser “defeituosa”, dado que a 1ª é “defeituosa”. Solução. Em razão de a 1ª peça ser defeituosa, o lote restante tem 11 peças, 3 das quais são defeituosas. Então:

P (B|A) = 3 = 0,2727 11

a 2ª peça ser “defeituosa”, dado que a 1ª é de “qualidade”. Solução. Em razão de a 1ª peça ser de qualidade, o lote restante tem 11 peças, 4 das quais são defeituosas. Então:

P (B|A) = 4 = 0,3636 11

a 2ª peça ser de “qualidade”, dado que a 1ª é “defeituosa”. Solução. Em razão de a 1ª peça ser defeituosa, o lote restante tem 11 peças, 8 das quais são de qualidade

Uanderson Rebula de Oliveira

P (B|A) = 8 = 0,7272 11

Análise Estatística


Administração

- 13 -

Multiplicação de probabilidade com eventos dependentes

...ache P(A e B) , dado P(B|A) e P(A)

Uma consequência matemática importante da definição de probabilidade condicional é a seguinte: P(B|A) = P(A e B) se quero achar: P(B|A) = ? então → P(A e B) = P(A) x P(B|A) P(A) P(A e B) P(A) Isto é, a probabilidade dos eventos (A e B) é o produto da probabilidade de um deles pela probabilidade do outro, dado o primeiro. EXEMPLO 1 Duas cartas são selecionadas em sequência em um baralho de 52 cartas. Qual a probabilidade de selecionar um Rei e uma Dama? (não há reposição). 4

A probabilidade de a 1ª carta ser um Rei é /52. A 4 2ª carta ser uma Dama é /51, pois o baralho restante tem 51 cartas, 4 das quais são dama.

P(A e B) = ? 4 P(A) = /52 4 P(B|A) = /51

P(A e B) = P(A) x P(B|A)

4 x 4 52 51

16 = 0,006 2652

EXEMPLO 2 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Sendo retiradas duas peças em sequência, qual a probabilidade de que: (não há reposição) a) Ambas sejam “defeituosas”

b) Ambas sejam de “qualidade”

P(A e B) = ? 4 x 3 = 0,090 4 P(A) = /12 12 11 3 P(B|A) = /11 4 3 A probabilidade de a 1ª peça ser defeituosa é /12 e a 2ª é /11, pois o lote restante tem 11 peças, 3 das quais são defeituosas.

P(A e B) = ? 8 8 x 7 = 0,4242 P(A) = /12 7 12 11 P(B|A) = /11 8 7 A probabilidade de a 1ª peça ser de qualidade é /12 e a 2ª é /11, pois o lote restante tem 11 peças, 7 das quais são de qualidade.

EXEMPLO 3 Uma urna contém 7 bolas brancas (B) e 3 pretas (P). Extraindo-se três bolas em sequência, qual a probabilidade de que: (não há reposição). a) As duas primeiras sejam brancas e a terceira seja preta (ou seja, BBP) 7

6

A probabilidade de a 1ª bola ser branca é /10 e a 2ª é /9. A 3 probabilidade de a 3ª bola ser preta é /8, pois a urna restante tem 8 peças, 3 das quais são pretas.

7

P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8

7 x 6 x 3 = 0,175 10 9 8

b) Duas sejam brancas e uma seja preta (ou seja: BBP, BPB ou PBB) = 3[BBP] O evento sair “duas brancas e uma preta” pode ocorrer de três maneiras que diferem apenas pela ordem de aparecimento das bolas: (BBP, BPB, PBB). Logo, a probabilidade será a soma dessas maneiras. Então, basta calcular a probabilidade de uma dessas maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(BBP).

7

P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8

 7 6 3 3   x x  = 0,525  10 9 8 

c) Pelo menos duas sejam brancas (ou seja: 3[BBP] + [BBB]) 2 brancas

3 brancas

“Pelo menos duas brancas“ é a mesma coisa que “no mínimo duas brancas”, ou seja, duas ou três brancas. Então, calculamos duas brancas + três brancas.

3[BBP] 7 P(A) = /10 6 P(B|A) = /9 3 P(C|B) = /8

[BBB] 7 P(A) = /10 6 P(B|A) = /9 5 P(C|B) = /8

 7 6 3  7 6 5 3   x x  +  x x  = 0,8166  10 9 8   10 9 8 

d) No máximo uma seja branca (ou seja: [PPP] + 3[PPB]) 0 branca

1 branca

No máximo uma branca é a mesma coisa que “ou nenhuma branca ou uma branca”. Então, calculamos nenhuma branca (todas pretas) + uma branca.

[PPP] 3 P(A) = /10 2 P(B|A) = /9 1 P(C|B) = /8

3[PPB] 3 P(A) = /10 2 P(B|A) = /9 7 P(C|B) = /8

 3 2 7  3 2 1  x x  + 3   x x  = 0,1833 10 9 8  10 9 8   

e) Pelo menos uma seja preta. (ou seja: 3[PBB] + 3[PPB] + [PPP]) 1 preta 3[PBB] 3 P(A) = /10 7 P(B|A) = /9 6 P(C|B) = /8

3[PPB] 3 P(A) = /10 2 P(B|A) = /9 7 P(C|B) = /8

[PPP] 3 P(A) = /10 2 P(B|A) = /9 1 P(C|B) = /8

2 pretas

3 pretas

 3 7 6  3 2 7  3 2 1 3   x x  + 3   x x  +  x x  = 0,7083  10 9 8   10 9 8   10 9 8  MÉTODO ALTERNATIVO:

É mais prático usar o evento complementar: 1 – BBB (nenhuma preta) f) Todas sejam da mesma cor: [PPP]+[BBB] = 0,30

Uanderson Rebula de Oliveira

[BBB] 7 P(A) = /10 6 P(B|A) = /9 5 P(C|B) = /8

 7 6 5 1   x x  = 0,7083  10 9 8 

Análise Estatística


Administração

- 14 -

Multiplicação de Probabilidade com Eventos independentes É quando a ocorrência do Evento A não afeta a probabilidade da ocorrência do B. Não existe dependência. A e B podem ocorrer simultaneamente (ao mesmo tempo). São independentes. 

A regra da multiplicação é usada para achar P(A e B) para eventos independentes. Aqui associaremos a palavra “e” com “multiplicação”. O termo chave usado é “simultâneo”. A equação é : P(A e B) = P(A) x P(B). Existe reposição 1 2 3 4 5 6

( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )

1 2 3 4 5 6

( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )

1 2 3 4 5 6

( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )

4

1 2 3 4 5 6

( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )

5

1 2 3 4 5 6

( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )

6

1 2 3 4 5 6

( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )

1

2

Lançar dois dados

Evento A

3

e

Evento B

S = {36}

Exemplo 1. Ao lançar dois dados simultaneamente, qual a probabilidade de: Obter o número 2 e ímpar ? Pelo Diagrama de árvore:

Então, a probabilidade é:

(2,1), (2,3), (2,5)

3 = 8,33% 36

Se aplicarmos a regra da multiplicação, temos:

A={2} → A=1 B={1,3,5} → B=3 S={1,2,3,4,5,6} → S = 6

P(A e B) = P(A) x P(B) 1 x 3 = 3 = 8,33% 6 6 36

Obter um número par e ímpar ? Pelo Diagrama de árvore

Então, a probabilidade é: 9 = 25% 36

(2,1), (2,3), (2,5) (4,1), (4,3), (4,5) (6,1), (6,3), (6,5) Aplicando a regra da multiplicação, temos:

A={2,4,6} B={1,3,5} S={1,2,3,4,5,6}

→ A=3 → B=3 → S=6

P(A e B) = P(A) x P(B) 3 x 3 = 9 = 25% 6 6 36

Esta regra pode ser estendida para qualquer número de eventos independentes: P (A e B e C) = P(A) x P(B) x P(C)...

O resultado do evento B independe do resultado de A. “São independentes”

Exemplo 2. Cirurgias de microfraturas no joelho têm 75% de chance de Sucesso em pacientes com joelhos degenerativos (25% é de fracasso). A cirurgia é realizada em 3 pacientes. Calcule a probabilidade de que: Nota: A probabilidade de que cada cirurgia seja um sucesso é de 0,75. A chance de um sucesso para uma cirurgia é independente das chances para as outras cirurgias. Portanto, os eventos são independentes. a) As três cirurgias sejam um sucesso. ou seja:[SSS] [SSS] P(A) = 0,75 P(B) = 0,75 P(C) = 0,75

b) As três cirurgias sejam um fracasso. ou seja:[FFF]

P (A e B e C) = P(A) x P(B) x P(C) 0,75 x 0,75 x 0,75 = 0,4218

[FFF] P(A) = 0,25 P(B) = 0,25 P(C) = 0,25

P (A e B e C) = P(A) x P(B) x P(C) 0,25 x 0,25 x 0,25 = 0,0156

c) Duas cirurgias sejam um sucesso (ou seja: SSF, SFS, FSS) = 3[SSF] O evento “Duas cirurgias” pode ocorrer de três maneiras que diferem apenas pela ordem dos resultados das cirurgias: (SSF, SFS, FSS). Logo, a probabilidade será a soma dessas maneiras. Então, basta calcular a probabilidade de uma dessas maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(SSF).

Uanderson Rebula de Oliveira

P(A) = 0,75 P(B) = 0,75 P(C) = 0,25

3 * (0,75*0,75*0,25) = 0,4218

Análise Estatística


Administração

- 15 -

Teorema de Bayes (THOMAZ BAYES – 1701-1761 – MATEMÁTICO) É uma extensão da probabilidade condicional, que procura responder a pergunta: sabendo-se que o evento A ocorreu, qual a probabilidade de que esse evento tenha provindo de X? 

Usamos o Teorema de Bayes para rever probabilidades com base em informação adicional obtida posteriormente. Uma idéia-chave para se entender a essência do teorema é reconhecer que estamos trabalhando com eventos sequenciais, pelos quais novas informações são obtidas para se rever a probabilidade do evento inicial. Nesse contexto, os termos probabilidade a priori e probabilidade a posteriori são comumente usados. Uma probabilidade a priori é um valor de probabilidade inicial originalmente obtido antes que seja obtida qualquer informação adicional. Uma probabilidade a posteriori é um valor de probabilidade que foi revisto usando-se informação adicional obtida posteriormente. O teorema de Bayes pode ser obtido por meio de tabelas, diagrama de árvore e pela equação de Bayes.

Exemplo 1. Usando um Diagrama de Árvore e a Equação de Bayes As máquinas A e B são responsáveis por 65% e 35%, respectivamente, da produção de uma empresa. Os índices de peças defeituosas na produção destas respectivas máquinas valem 2% e 5%. Se uma peça defeituosa foi selecionada da produção desta empresa, qual é a probabilidade de que tenha sido produzida pela máquina A? Resolução: Portanto, ao selecionar uma peça, atribuímos as probabilidades iniciais: P(A) = 0,65 e P(B) = 0,35, incluindo as peças perfeitas e defeituosas. Denotamos P = peça perfeita e D = peça defeituosa

Pelo Diagrama de Árvore 0,98

Peça perfeita

A probabilidade da peça sair defeituosa, seja da máquina A ou B, é 0,0305 (0,0130+0,0175), que é a probabilidade total da peça sair defeituosa.

P(A) * (P|A) = 0,6370

máquina

A

Se queremos saber a probabilidade de a peça defeituosa ter sido produzida pela máquina A, será:

0,02

0,65

Peça defeituosa P(A) *(D|A) = 0,0130

Peça fabricada 0,35

máquina

0,95

Peça perfeita

0,0130 = 0,4262 0,0305

P(B) * (P|B) = 0,3325

+

B

Enquanto que ter sido produzida pela máquina B será:

0,05 Peça defeituosa P(B) * (D|B) = 0,0175

0,0175 = 0,5738 0,0305

Pela equação de Bayes A equação de Bayes é dada por P(x) =

P(A1) . P(B|A1) P(A1) . P(B|A1) + P(A2) . P(B|A2)

Sendo o numerador a probabilidade condicionada procurada, o denominador a probabilidade total condicionada, podendo estender a P(An) . P(B|An).

Usando a equação de Bayes e as probabilidades do exemplo 1, referente ao cálculo da peça defeituosa ter sido produzida pela máquina A, temos: P(A1) = 0,65 (peça ser produzida pela máquina A) P(B|A1) = 0,02 (peça ser defeituosa, dado ser produzida pela máquina A) P(A2) = 0,35 (peça ser produzida pela máquina B) P(B|A2) = 0,05 (peça ser defeituosa, dado ser produzida pela máquina B) P(x) =

(0,65) . (0,02) (0,65) . (0,02) + (0,35) . (0,05)

= 0,4262

Exemplo 2. As máquinas A e B são responsáveis por 400 e 150, respectivamente, da produção de peças de uma empresa. A quantidade de peças defeituosas produzidas pelas respectivas máquinas são 10 e 20. Se uma peça defeituosa foi selecionada da produção, qual a probabilidade de que tenha sido produzida pela máquina B? O total de peças produzidas é igual a 550 (400+150), logo: 400

A

P(A1) = 0,727 ( /550) (peça ser produzida pela máquina A) 10 P(B|A1) = 0,025 ( /400) (peça ser defeituosa, dado ser produzida pela máquina A)

B

P(A2) = 0,272 ( /550) (peça ser produzida pela máquina B) 20 P(B|A2) = 0,133 ( /150) (peça ser defeituosa, dado ser produzida pela máquina B)

150

Logo, a probabilidade da peça ser defeituosa e ter sido produzida pela máquina B será:

P(x) =

P(A2) . P(B|A2) P(A2) . P(B|A2) + P(A1) . P(B|A1)

Uanderson Rebula de Oliveira

P(x) =

(0,272) . (0,133) (0,272) . (0,133) + (0,727) . (0,025)

= 0,6661

Análise Estatística


Administração

- 16 -

CAPÍTULO 2 VARIÁVEIS ALEATÓRIAS E MODELOS PROBABILÍSTICOS ( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )

2

1 2 3 4 5 6

( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )

3

1 2 3 4 5 6

( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )

4

1 2 3 4 5 6

( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )

5

1 2 3 4 5 6

( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )

6

1 2 3 4 5 6

( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )

Construindo modelos teóricos...

É possível criar um modelo teórico que descreva como se espera que o experimento se comporte?

6

/36

6 5

5

/36 /36

3

/36

2

/36

5

4

4

Probabilidade

Lançar dois dados

1

1 2 3 4 5 6

4

3

3

2

2

1

1

1

/36

2

3

4

5

6

7

8

9

10

11

12

Soma dos dados

VÍDEO https://www.youtube.com/watch?v=taXzDnSvEyQ&list=TLgncEwsd32SIvhtOJR3ir4KnWzikk3-ov

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 17 -

VARIÁVEL ALEATÓRIA E DISTRIBUIÇÕES DE PROBABILIDADE Uma variável aleatória “X” representa um valor numérico associado a cada resultado de um experimento de probabilidade. Exemplo 1. A tabela e o gráfico abaixo representam um modelo de probabilidade para a soma de dois dados lançados simultaneamente:

Variáveis aleatórias(X) Valor numérico de cada experimento ( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )

2

1 2 3 4 5 6

( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )

3

1 2 3 4 5 6

( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )

4

1 2 3 4 5 6

( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )

1 2 3 4 5 6

( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )

1 2 3 4 5 6

( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )

1

Lançar dois dados

5

6

frequências

É a lista de cada valor de uma variável aleatória “X”

Soma dos dados “X” 2 3 4 5 6 7 8 9 10 11 12 -

Probabilidade “P(x)” 1 /36 2 /36 3 /36 4 /36 5 /36 6 /36 5 /36 4 /36 3 /36 2 /36 1 /36

f 1 2 3 4 5 6 5 4 3 2 1 =36

=1

6

/36

6

5

/36

5

4

/36

3

/36

2

/36

1

/36

Representação gráfica da distribuição

5

4

Probabilidade

1 2 3 4 5 6

Distribuição de probabilidades

4

3

3

2

2

1

2

1

3

4

5

6

7

8

9

10

11

12

Soma dos dados

Notas e comentários A palavra “aleatório” indica que “X” é determinado pelo acaso. A variável aleatória é uma regra que associa um valor numérico a cada resultado experimental possível. A distribuição de probabilidades de uma variável aleatória descreve como as probabilidades estão distribuídas sobre os valores da variável aleatória. Para uma variável “X”, a distribuição de probabilidade é definida por uma função probabilidade, denotada por f(x). A função probabilidade fornece a probabilidade correspondente a cada um dos valores da variável aleatória. A principal vantagem de definir uma variável aleatória “X” e sua distribuição de probabilidade é que, uma vez que a distribuição seja conhecida, torna-se relativamente fácil determinar a probabilidade de uma série de eventos que podem ser do interesse de um tomador de decisões.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 18 -

Exemplo 2. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Definindo a variável aleatória “X” como o prazo para conclusão do projeto e, usando a Regra da Adição com as probabilidades no diagrama de árvore, você poderá determinar a probabilidade de ocorrência dos meses para conclusão do projeto. Então, poderá usar essa informação para estabelecer as distribuições de probabilidades: Conclusão do projeto (em meses) “X” 8 9 10 11 12 -

f

Probabilidade “P(x)” 1

/9 = 0,11 /9 = 0,22 3 /9 = 0,33 2 /9 = 0,22 1 /9 = 0,11

1 2 3 2 1

2

=9

=1

Prazo para conclusão do projeto

Assim, podemos responder rapidamente alguns questionamentos: Qual a probabilidade de o projeto ser concluído em 8 meses? R.: 11% Qual a probabilidade de o projeto ser concluído em 9 meses? R.: 22% Qual a probabilidade de o projeto ser concluído em 10 meses? R.: 33% Qual a probabilidade de o projeto ser concluído em 10 ou 11 meses? R.: 55% Qual a probabilidade de o projeto ser concluído entre 9 e 11 meses? R.: 77%

Probabilidade

1 0,8 0,6

0,33

0,4

0,22

0,22

0,11

0,2

0,11

0

8

9

10 meses

11

12

Exemplo 3. Uma pesquisa entrevistou 200 casas de um bairro sobre quantas televisões possuem. Os dados mostram que 3 casas não possuem televisão, 38 casas possuem 1 televisão, 95 casas possuem 2 televisões, 52 casas possuem 3 televisões e 12 casas possuem 4 televisões. Definimos a variável aleatória de interesse como “X” o número de televisões. A partir dos dados, sabemos que X é uma variável aleatória que pode assumir 0, 1, 2, 3, ou 4. Temos, então, a distribuição de probabilidades e o gráfico abaixo: Casas com televisões em um bairro f (casas)

3 38 95 52 12 =200

Probabilidade “P(x)” 3 /200 = 0,015 38 /200 = 0,190 95 /200 = 0,475 52 /200 = 0,260 12 /200 = 0,060 =1

1

Probabilidade

Nº de televisões “X” 0 1 2 3 4 -

0,8

0,475

0,6 0,4 0,2

0,19

0,26 0,06

0,015

0

0

1 2 3 Número de televisões

4

Assim, podemos responder rapidamente alguns questionamentos: Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela não possuir televisão? R.: 1,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 1 televisão? R.: 19% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 2 televisões? R.: 47,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir 2 ou 3 televisões? R.: 73,5% Ao selecionar aleatoriamente uma casa, qual a probabilidade de ela possuir televisão? R.: 98,5%

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 19 -

VALOR ESPERADO E(X) O Valor esperado de variáveis aleatórias “X” é um valor que você esperaria acontecer em vários testes. Podemos considerar o Valor esperado no sentido de que é o valor médio que esperaríamos se o experimento fosse feito diversas vezes. Então, podemos dizer que o conceito de Valor esperado aplicado em uma variável aleatória é equivalente à Média ponderada dos possíveis valores que “X” pode receber, onde os pesos são as probabilidades associadas. É semelhante ao cálculo da Média de uma Distribuição de frequência. Obtemos, então, a seguinte fórmula:

EQUAÇÃO DO VALOR ESPERADO Valor esperado de “X”

E (X) =  X . P(x) Probabilidades associadas Variáveis Aleatórias Cada valor de X é multiplicado por sua probabilidade e os produtos são adicionados. O Valor esperado, representado por E(X), também é chamado de Média de uma Variável Aleatória, Esperança matemática, Esperança ou Expectância.

Exemplo 1. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo esperado para conclusão do projeto?

P(x)

Conclusão do projeto (em meses) X 8 x 9 10 11 12 -

0,11 0,22 0,33 0,22 0,11 =1

X . P(x)

=

0,88 1,98 3,30 2,42 1,32  X.P(x) = 10

Valor esperado E(X) Interpretação: Espera-se que o projeto seja concluído em 10 meses NOTA: Posso fazer também da seguinte forma: E(X) = 8(0,11) + 9(0,22) + 10(0,33) + 11(0,22) + 12(0,11) = 10 meses Exemplo 2. A tabela abaixo representa um modelo de probabilidade para a soma de dois dados lançados simultaneamente. Qual o valor esperado para a soma dos dados? 3 1 2 3 4 5 6

( 1, 1 ) ( 1, 2 ) ( 1, 3 ) ( 1, 4 ) ( 1, 5 ) ( 1, 6 )

2

1 2 3 4 5 6

( 2, 1 ) ( 2, 2 ) ( 2, 3 ) ( 2, 4 ) ( 2, 5 ) ( 2, 6 )

3

1 2 3 4 5 6

( 3, 1 ) ( 3, 2 ) ( 3, 3 ) ( 3, 4 ) ( 3, 5 ) ( 3, 6 )

4

1 2 3 4 5 6

( 4, 1 ) ( 4, 2 ) ( 4, 3 ) ( 4, 4 ) ( 4, 5 ) ( 4, 6 )

5

1 2 3 4 5 6

( 5, 1 ) ( 5, 2 ) ( 5, 3 ) ( 5, 4 ) ( 5, 5 ) ( 5, 6 )

1 2 3 4 5 6

( 6, 1 ) ( 6, 2 ) ( 6, 3 ) ( 6, 4 ) ( 6, 5 ) ( 6, 6 )

1

Lançar dois dados

6

Uanderson Rebula de Oliveira

Soma dos dados “X” 2 3 4 5 6 7 8 9 10 11 12 -

x

Probabilidade “P(x)” 0,0278 0,0556 0,0833 0,1111 0,1389 0,1667 0,1389 0,1111 0,0833 0,0556 0,0278 =1

X . P(x)

=

0,0556 0,1667 0,3333 0,5556 0,8333 1,1667 1,1111 1,0000 0,8333 0,6111 0,3333  X.P(x) = 7

Valor esperado E(X) Interpretação: Espera-se que a soma dos dados seja 7. NOTA: Posso fazer também da seguinte forma: E(X) = 2(0,0278) + 3(0,0556) + 4(0,0833) + 5(0,1111) 6(0,1389) + 7(0,1667) + 8(0,1389) + 9(0,1111) + 10(0,0833) + 11(0,0556) + 12(0,0278) = 7

Análise Estatística


Administração

- 20 -

VARIÂNCIA E DESVIO PADRÃO Podemos aplicar os conceitos de Variância e Desvio Padrão para o Valor esperado E (X). 

Embora o Valor esperado de uma distribuição de probabilidades da variável aleatória descreva um resultado comum, ela não dá informações sobre a maneira que os resultados variam. Para estudar a variação dos resultados, você pode usar a variância e o desvio padrão de uma distribuição de probabilidades da variável aleatória. Então: FÓRMULA DA VARIÂNCIA E DESVIO PADRÃO DO VALOR ESPERADO VARIÂNCIA

S

2 =

DESVIO PADRÃO

 (x – EX) . P(x) 2

S=

s2

Probabilidades associadas Valor esperado Variáveis Aleatórias

Variância

Exemplo Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo esperado para conclusão do projeto, a variância e o desvio padrão?

Conclusão do projeto (em meses) X 8 9 10 11 12 Total 2

Então, a Variância é: S = 1,32

P(x)

X . P(x)

0,11 0,22 0,33 0,22 0,11 =1

0,88 1,98 3,30 2,42 1,32 EX = 10

2

(X – EX) . P(x) 2

( 8–10) 2 ( 9–10) 2 (10–10) 2 (11–10) 2 (12–10)

e o Desvio padrão é: S =

s2

. (0,11) = 0,44 . (0,22) = 0,22 . (0,33) = 0 . (0,22) = 0,22 . (0,11) = 0,44  = 1,32

S = 1,32

1,15 meses

Podemos calcular também, sem montagem de tabela, da seguinte forma: 2 2 2 2 2 2 2 S =  (x – EX) .P(x) → (8-10) . (0,11) + (9-10) . (0,22) + (10-10) . (0,33) + (11-10) . (0,22) + (12-10) . (0,11) = 1,32 S = 1,32

1,15 meses

Interpretação do desvio padrão: O Desvio padrão indica que a maioria dos valores de dados difere do Valor esperado não mais que 1,15 meses, para mais ou para menos. Então, podemos afirmar que os valores esperados estão dentro dos limites de:

8,85 8 meses

Uanderson Rebula de Oliveira

9 meses

11,15 10 meses E(X)

11 meses

12 meses

Análise Estatística


Administração

- 21 -

MODELO BINOMIAL

(JAKOB BERNOULLI 1654-1705)

É um experimento de probabilidades para os quais os resultados de cada tentativa podem ser reduzidos a dois resultados: SUCESSO ou FRACASSO.

 Sucesso corresponde à probabilidade procurada enquanto que Fracasso à probabilidade não procurada, ou seja, o evento complementar. A palavra sucesso como usada aqui é arbitrária e não representa, necessariamente, algo bom. Qualquer uma das duas categorias pode ser chamada de sucesso, desde que seja a probabilidade procurada. A probabilidade Binomial é aplicada para Eventos independentes. A amostra é feita com reposição.

Revisão de FATORIAL (O fatorial é usado na equação binomial, por isso a importância da revisão) FATORIAL é um procedimento matemático utilizado para calcular o produto de uma multiplicação cujos fatores são números naturais consecutivos, denotado por x! Exemplos: 5! = 5.4.3.2.1 = 120 30! = 30.29.28. ... .1 0! = 1

5! = 5.4.3! = 20 3! 3!

5! = 5.4.3! = 5 3! 4 3! 4

5! = 5.4.3! = 10 3! (5-3)! 3! (2)!

Há várias formas de encontrar probabilidade Binomial. Uma forma é usar um Diagrama de Árvore e a regra de multiplicação. Outra forma é usar a equação de probabilidade Binomial, onde usamos Fatorial. Podemos também usar tabelas. EQUAÇÃO DA PROBABILIDADE BINOMIAL

P(x) =

n! . S x! (n - x)!

x

. F

n-x

F = probabilidade de Fracasso

n tamanho da amostra x nº sucessos na amostra

(evento complementar)

S = probabilidade de Sucesso (evento procurado)

Nota: p e q foram substituídos por S e F por fins didáticos.

Fundamentação da equação: https://www.youtube.com/watch?v=V2sfnVikFXA

Exemplo 1. Usando um Diagrama de Árvore (evento independente) e a equação da probabilidade Binomial Cirurgias de microfaturas no joelho têm 75% de chance de sucesso em pacientes com joelhos degenerativos. A cirurgia é realizada em 3 pacientes. Encontre a probabilidade de a cirurgia ser um sucesso em 2 pacientes. Pelo Diagrama de Árvore 1ª

ou

Pela equação Binomial

Resultado

Sucessos

S

(S,S,S)

3

Probabilidade (ev. indepen) 0,75 . 0,75 . 0,75 = 0,422

S

F

(S,S,F)

2

0,75 . 0,75 . 0,25

= 0,141

+

0,25

S

(S,F,S)

2

0,75 . 0,25 . 0,75

= 0,141

+

(S,F,F)

1

0,75 . 0,25 . 0,25

= 0,047

(F,S,S)

2

0,25 . 0,75 . 0,75

= 0,141

P(x) =

0,75

0,75

S F F S 0,75

0,25

S

F

(F,S,F)

1

0,25 . 0,75 . 0,25

= 0,047

0,25

S

(F,F,S)

1

0,25 . 0,25 . 0,75

= 0,047

F

(F,F,F)

0

0,25 . 0,25 . 0,25

= 0,016

F F

Há três resultados que têm dois sucessos e cada um tem uma probabilidade de 0,141. Aplicando a Regra da Adição, a probabilidade de a cirurgia ser um sucesso com dois pacientes é 0,422. (0,141 + 0,141 + 0,141)

A probabilidade de sucesso em 1 paciente será:

P(x)=

1

3! . 0,75 . 0,25 1! (3-1)!

3–1

≈ 0,141

Pelo Diagrama será (0,047+0,047+0,047)

+

n! . S x! (n - x)!

x

. F

n-x

n=3 x=2 S = 0,75 F = 0,25 (evento complementar)

P(x)=

2

3! . 0,75 . 0,25 2! (3-2)!

3-2

P(x)= 0,422

Usando a equação Binomial obtemos o mesmo resultado pelo método do Diagrama de árvore, de 0,422.

A probabilidade de não ter sucesso será:

P(x)=

0

3! . 0,75 . 0,25 0! (3-0)!

3–0

≈ 0,016 0

Nota: x = 1

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 22 -

Exemplo 2. Um levantamento estatístico realizado pelo IBGE constatou que a taxa de desemprego na cidade de Resende é da ordem de 13%. Ao tomarmos uma amostra de 30 pessoas, com reposição, qual a probabilidade de: a) 5 estarem desempregados b) 28 estarem empregados c) 27 estarem empregados

13% desemprego(Sucesso) 87% emprego(Fracasso) 87% emprego(Sucesso)

P(x) = a) 5 estarem desempregados

n! . S x! (n - x)!

x

. F

n-x

b) 28 estarem empregados

n = 30 x=5 S = 0,13 F = 0,87

c) 27 estarem empregados

n = 30 x = 28 S = 0,87 F = 0,13 30 - 5

P(x)=

P(x)= 142506 . 0,000037 . 0,0307

P(x)=

P(x)=

30! . 0,13 5! (30-5)!

5

. 0,87

Sucesso é o que se deseja estudar; Fracasso é o que não se deseja estudar

13% desemprego(Fracasso)

n = 30 x = 27 S = 0,87 F = 0,13

30! . 0,87 28! (30-28)! 435

P(x) ≈ 0,1627

28

. 0,13

30-28

P(x)=

. 0,0202 . 0,0169

30! . 0,87 27! (30-27)!

27

. 0,13

30-27

P(x)= 4060 . 0,0232 . 0,0021

P(x) ≈ 0,1489

P(x) ≈ 0,1978

Exemplo 3. Uma caixa contém 50 bolas, sendo 40 brancas e 10 pretas. Tirando-se 5 bolas, COM REPOSIÇÃO, qual a probabilidade de saírem: a) 2 bolas pretas? n=5 x=2 10 S = 0,20 ( /50) 40 F = 0,80 ( /50)

2

P = 5!

. 0,20 . 0,80 2! (5-2)!

5–2

b) 4 bolas brancas? n=5 x=4 40 S = 0,80 ( /50) 10 F = 0,20 ( /50)

≈ 0,2048

P = 5!

4

. 0,80 . 0,20

5 –4

≈ 0,4096

4! (5-4)!

Exemplo 4. Uma moeda é lançada 5 vezes. Qual a probabilidade de obter “3 caras” nessas cinco provas? n = 5 (tamanho da amostra) x = 3 (nº sucessos da amostra) S = 0,50 ( = ½ a p de obter cara) F = 0,50 (= ½ a p de obter coroa)

P(x) =

3

5! __ . 0,50 . 0,50 3! (5-3)!

5–3

≈ 0,3125

Exemplo 5. Um dado é lançado 6 vezes. Qual a probabilidade de que a “face 4” apareça 2 vezes? n = 6 (tamanho da amostra) x = 2 (nº sucessos da amostra) 1 S = 0,17 ( = /6 a p de obter “4”) 5 F = 0,83 (= /6 a p de não obter “4”)

P(x) =

2

6! __ . 0,17 . 0,83 2! (6-2)!

6–2

0,2057

Exemplo 6. Dois times de futebol, A e B, jogam entre si 6 vezes. Qual a probabilidade de o time A ganhar 4 jogos? n = 6 (tamanho da amostra) x = 4 (nº sucessos da amostra) 1 S = 0,33 ( = /3 a p de ganhar)* F = 0,66 (= 2/3 a p de não ganhar)

P(x) =

4

6! __ . 0,33 . 0,66 4! (6-4)!

6–4

≈ 0,0774

1

* /3 o time A pode ganhar, empatar ou perder. Logo, a probabilidade para cada evento é de 1/3 Exemplo 7. Em uma fábrica, 3 em cada 10 peças são defeituosas. Uma remessa a um determinado cliente possui 5 peças. Determine a probabilidade de que, nessa remessa: 2 estejam defeituosas n = 5 (tamanho da amostra) x = 2 (nº sucessos da amostra) 3 S = 0,30 ( = /10 a p peça ser defeituosa) F = 0,70 (= 7/10 a p peça ser perfeita)

P(x) =

2

5–2

5! __ . 0,30 . 0,70 2! (5-2)!

Uanderson Rebula de Oliveira

4 estejam perfeitas n = 5 (tamanho da amostra) x = 4 (nº sucessos da amostra) 7 S = 0,70 ( = /10 a p peça ser perfeita) F = 0,30 (= 3/10 a p peça ser defeituosa) ≈ 0,3087

P(x) =

4

5–4

5! __ . 0,70 . 0,30 4! (5-4)!

≈ 0,3602

Análise Estatística


Administração

- 23 -

Exemplo 8. Uma máquina produz parafusos, dos quais 12% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 40 parafusos produzidos por essa máquina: a) Entre 3 e 5 parafusos estejam defeituosos, inclusive

(ou seja: P3 + P4 + P5)

Neste caso, calcularemos a probabilidade de 3, 4 e 5 parafusos defeituosos. Depois somamos as probabilidades. (Adição de Prob.) 3 parafusos defeituosos

4 parafusos defeituosos

5 parafusos defeituosos

n = 40 x=3 S = 0,12 F = 0,88

n = 40 x=4 S = 0,12 F = 0,88

n = 40 x=5 S = 0,12 F = 0,88

P = 40! . 0,123 . 0,8840–3 ≈ 0,1507

P = 40!_ . 0,124. 0,8840–4 ≈ 0,1901

P = 40! _ . 0,125. 0,8840–5 ≈ 0,1867

3! (40-3)!

4! (40-4)!

5! (40-5)!

P (3 e 5, inclusive) = 0,1507 + 0,1901 + 0,1867 = 0,5275

b) Pelo menos dois parafusos defeituosos

(ou seja: P2 + P3 + P4

+ . . . + P40)

Neste caso use: 1 - (P0 + P1)

Ao invés de calcularmos P2 + P3 + P4 + . . . + P40 é mais conveniente usarmos o método do evento complementar (1 – p), pois dá menos trabalho. Então, calculamos 1 – (P0 +P1 ) nenhum parafuso defeituoso

1 parafuso defeituoso

n = 40 x=0 S = 0,12 F = 0,88

P0 = 40!

Evento complementar

n = 40 x=1 S = 0,12 F = 0,88 0

. 0,12 . 0,88 0! (40-0)!

40–0

≈ 0,0060

P (x ≥ 2) = 1 – (P0 + P1) P = 1 – (0,0060 + 0,0328) P = 0,9612 1

P1 = 40! . 0,12 . 0,88

40–1

≈ 0,0328

1! (40-1)!

c) No máximo 3 parafusos defeituosos (ou seja: P0 + P1 + P2 + P3) Neste caso, somamos as probabilidades de : P0 + P1 + P2 + P3, Ou seja, aplicamos o método de adição de probabilidades. nenhum parafuso defeituoso

1 parafuso defeituoso

2 parafusos defeituosos

3 parafusos defeituosos

P0 = 0,0060

P1 = 0,0328

P2 = 0,0872

P3 = 0,1507

Adição P (x ≤ 3) = 0,0060+0,0328+0,0872+0,1507 = 0,2768

d) Pelo menos 39 parafusos de qualidade (ou seja: ... P39 + P40) Ou seja, no mínimo 39 parafusos de qualidade. Então, somamos P39 + P40

39 parafusos de qualidade n = 40 x = 39 S = 0,88 F = 0,12

P39 =

39

40! . 0,88 . 0,12 39! (40-39)!

40–39

≈ 0,0328

40 parafusos de qualidade n = 40 x = 40 S = 0,88 F = 0,12 40

P1 =

40! . 0,88 . 0,12 40! (40-40)!

40–40

Adição

P = P39 + P40 P = (0,0328 + 0,0060) P = 0,0388

≈ 0,0060

e) No máximo 39 parafusos de qualidade (ou seja: ...P0 + P1 + P2 + ... + P39) Neste caso, somaríamos as probabilidades de : P0 + P1 + P2 + ... + P39, Mas são muitos cálculos. Então, é mais conveniente usar o método de evento complementar (1 – p). Então, calculamos 1 – P40

P (x ≤ 39) = 1 – P40

Uanderson Rebula de Oliveira

P = 1 – 0,0060 = 0,9940

Análise Estatística


Administração

- 24 -

Encontrando probabilidades Binomiais por meio do Excel Você pode encontrar probabilidades Binomiais pelo EXCEL, bastando inserir os dados, conforme demonstrado abaixo. A figura abaixo se refere ao exemplo 8 que acabamos de ver.

Ou, diretamente pela equação Binomial no excel (ex. 8, sair 3 defeituosos):

nº sucesso amostra tamanho amostra prob. Sucesso falso, para não cumulativo (até 3)

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 25 -

MODELO DE POISSON

(DENIS POISSON 1781-1840)

(LÊ-SE POASSÓN)

É um experimento de probabilidade que calcula o NÚMERO DE OCORRÊNCIAS de um evento em um DADO INTERVALO de TEMPO, DISTÂNCIA, ÁREA, VOLUME ou unidade similar. 

O esquema abaixo ajuda a melhor interpretar o experimento de Poisson.

1

x ←  

2

3

x

nº de ocorrências do evento

4...

x

x

Intervalo de tempo, distância, área ou volume

Regras: É aplicada caso os eventos ocorram com uma MÉDIA conhecida e cada evento seja independente. São exemplos: número de consultas a uma base de dados por minuto; número de falhas de um equipamento por hora; 2 número de erros de tipografia em um formulário; número de defeitos em um m de piso cerâmico; número de buracos em um asfalto por km; número de acidentes por mês em uma rodovia etc. EQUAÇÃO DA PROBABILIDADE DE POISSON

P(x) =

µ

x

*

e x!

µ = letra grega mi = Média Nota: Algumas literaturas usam (lambda) no lugar de µ

Constante de Euler Venn 2,7182 nº de ocorrências procurada

Média do nº de ocorrências (baseada em histórico)

Exemplo 1. A Média do número de acidentes por mês na rodovia Barra Mansa-Angra é de 3 acidentes por mês. Determine a probabilidade de que, em qualquer mês dado: a) 4 acidentes ocorram na rodovia b) 2 acidentes ocorram na rodovia c) Nenhum acidente ocorra na rodovia a) 4 acidentes ocorram na rodovia

µ=3 e = 2,7182 x=4 P(x) =

3

4 .

2,7182 4!

-3

= 0,168

Para calcular e

b) 2 acidentes ocorram na rodovia

c) Nenhum acidente ocorra na rodovia

µ=3 e = 2,7182 x=2

µ=3 e = 2,7182 x=0

P(x) = 3

2 .

2,7182 2! y

-3

= 0,224

P(x) = 3

y

use a mesma tecla X ou ^. Introduza 2,7182 X

0 .

2,7182 0!

-3

= 0,0498

- 3 = 0,0497 Encontre e na calculadora

Você pode usar o microsoft Excel para calcular probabilidades de Poisson. Veja abaixo (do exemplo 1)

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 26 -

Exemplo 2. Supondo que a Média do número de pessoas que acessam um caixa eletrônico de um banco durante uma hora é 5. Determine a probabilidade de, no mesmo período, ocorrerem: a) Menos de 2 acessos ao caixa eletrônico b) Pelo menos 3 acessos ao caixa eletrônico a) Menos de 2 acessos ao caixa eletrônico

P(x) =

µ

x

.

e

x! (ou seja nenhum acesso ou um acesso: P0 + P1 )

Neste caso, calcularemos a probabilidade de P0 e P1. Depois somamos as probabilidades. (Adição de Probabilidades) Nenhum acesso ao caixa

µ=5 e = 2,7182 x=0 P0 = 5

0 .

1 acesso ao caixa eletrônico

µ=5 e = 2,7182 x=1

2,7182 0!

-5

= 0,0067

P1 =

b) Pelo menos 3 acessos ao caixa eletrônico

5

Adição de Probabilidades

P(x < 2) = P0 + P1

1 .

2,7182 1!

-5

= 0,0337

P = 0,0067 + 0,0337 = 0,0404

(ou seja P3+P4+P5 +P6+P7+P8 ...)

“pelo menos 3 acessos ao caixa” é o mesmo que “no mínimo 3 acessos ao caixa”. Ao invés de calcularmos P3+P4+P5+... é mais conveniente usarmos método do evento complementar (1 – p). Então, calculamos 1 – (P0 + P1 + P2) Nenhum acesso ao caixa

1 acesso ao caixa eletrônico

P0 = 0,0067

P1= 0,0337

2 acessos ao caixa eletrônico

µ=5 e = 2,7182 x=2 P2 = 5

2 .

Evento complementar

P (x ≥ 3) = 1 – (P0 + P1 + P2) P = 1 – (0,0067+0,0337+0,0842) 2,7182 2!

-5

= 0,0842

P = 0,8753

Exemplo 3. Numa central telefônica chegam em média 300 telefonemas por hora. Qual a probabilidade de que: a) 2 telefonemas ocorram em dois minutos? b) 3 telefonemas ocorram em quatro minutos? c) Nenhum telefonema ocorra em um minuto?

Nota: São 300 telefonemas/hora, em média. 300 Então são em média 5 telefonemas/minuto. ( /60 = 5)

a) 2 telefonemas ocorram em dois minutos?

b) 3 telefonemas ocorram em quatro minutos?

c) Nenhum telefonema ocorra em um minuto?

µ= 10 telefonemas (5+5 em dois min) e= 2,7182 x= 2 telefonemas

µ= 20 telefonemas (5*4 em quatro min) e = 2,7182 x=3

µ = 5 telefonemas (em um min) e = 2,7182 x=0

P = 10

2 *

2,7182 2!

-10

= 0,002270

P = 20

3 .

2,7182 3!

–20

= 0,0000274

P= 5

0 .

2,7182 0!

-5

= 0,00673

Diretamente pela equação Poisson no excel (ex. 1, média 3, ocorrer 4 acidentes):

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 27 -

Poisson como aproximação para a distribuição Binomial Você pode utilizar a Distribuição de Poisson para fazer uma aproximação da Distribuição Binomial quando n (tamanho da amostra) é grande e S (sucesso) é pequeno. 

Quando n é muito grande (acima de 100, por exemplo), as probabilidades binomiais ficam difíceis de serem calculadas, 100 100 - 5 como exemplo 0,12 . 0,88 . O cálculo direto é impraticável. Apelamos então para a aproximação de Poisson. EQUAÇÃO DE POISSON COMO APROXIMAÇÃO DA BINOMIAL

P(x) = n = tamanho da amostra

(n.s)

x *

e x!

- (n . s) Constante de Euler Venn 2,7182 x = nº de sucessos da amostra

s = Probabilidade de sucesso procurada

Note que substituímos a média µ da equação de Poisson pela média da distribuição Binomial (n . s). Para melhor entender o modelo de aproximação vamos ver os exemplos 1 e 2, que comparam os dois métodos: Exemplo 1. Uma máquina produz parafusos, dos quais 12% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 40 parafusos produzidos por essa máquina: a) 3 parafusos estejam defeituosos Pela distribuição Binomial n = 40 x=3 S = 0,12 F = 0,88

Pbin =

Poisson como aproximação da distribuição Binomial n = 40 x=3 S = 0,12

3

40! . 0,12 . 0,88 3! (40-3)!

40–3

≈ 0,1507

PPoisson ≈ bin = (40 * 0,12)

3

* 2,7182 3!

–(40 * 0,12)

≈ 0,1517

Análise dos resultados: Perceba pelo comparativo que a distribuição de Poisson pode ter uma boa aproximação da Distribuição Binomial. A aproximação vai melhorando à medida que n vai se tornando maior e S vai se tornando menor. Exemplo 2. Uma máquina produz parafusos, dos quais 1% apresentam algum tipo de defeito. Calcular a probabilidade de, em um lote de 900 parafusos produzidos por essa máquina: a) 9 parafusos estejam defeituosos Pela distribuição Binomial n = 900 x=9 S = 0,01 F = 0,99

Pbin =

Poisson como aproximação da distribuição Binomial n = 900 x=9 S = 0,01

9

900! . 0,01 . 0,99 9! (900-9)!

900 – 9

≈ „Math ERROR‟ (0,1324 pelo Excel)

PPoisson ≈ bin = (900*0,01)

9

* 2,7182 9!

–(900 * 0,01)

≈ 0,1317

Análise dos resultados: Observe que o cálculo do exemplo 2 pelo método Binomial usando uma calculadora científica torna-se impraticável. Pelo Excel o resultado Binomial é 0,1324, bem aproximado pelo método de Poisson. É importante ressaltar que a variável aleatória de Poisson teoricamente se estende desde 0 até ∞ (infinito). No entanto, quando você utiliza a distribuição de Poisson como uma aproximação para a distribuição binomial, a variável aleatória de Poisson — o número de sucessos dentre n observações — não pode ser maior do que o tamanho da amostra, n.

VÍDEOS DISTRIBUIÇÃO POISSON HTTPS://WWW.YOUTUBE.COM/WATCH?V=WGQYIDSSJLW HTTPS://WWW.YOUTUBE.COM/WATCH?V=KGJMVCJWBFE HTTPS://WWW.YOUTUBE.COM/WATCH?V=2UUDJFT6CYW

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 28 -

MODELO NORMAL

(ABRAHAM DE MOIVRE 1667 - 1754 )

É usada para distribuições SIMÉTRICAS e possui diversas aplicações, como calcular as probabilidades de PESOS e ALTURAS das pessoas, diâmetro e comprimento de peças em linhas de produção, tempo de vida útil de produtos e diversas outras medições de pesquisas científicas.  Aplicado para distribuições SIMÉTRICAS (Média=Moda=Mediana). Possui como parâmetro a MÉDIA e DESVIO PADRÃO.  Também chamada de Curva Normal, Curva de Gauss e Curva em forma de Sino.

Para entender o conceito de uma Distribuição Normal, tomemos como exemplo a distribuição da vida útil de 340 lâmpadas produzidas pela PHILIPS:

Média = Moda = Mediana =

    

Curva NORMAL ou Curva de GAUSS ou Curva em forma de SINO 1000 horas

Observe pela Distribuição Normal que o tempo de vida útil das lâmpadas: Possui uma elevação em seu centro e pontas que vão tanto para direita quanto para a esquerda; A Média, Mediana e Moda (1000 horas) encontram-se exatamente no meio da distribuição; A distribuição de valores menores que a Média (700, 800, 900) e maiores que a Média (1100, 1200, 1300) é simétrica, o que significa que se você dobrá-la ao meio, suas partes serão como imagens refletidas por um espelho; Como a curva é simétrica em torno da Média, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade; A maioria dos dados é centralizada ao redor da média, de modo que quanto mais longe da média você se mover, cada vez menos pontos de dados você vai encontrar em ambos os lados.

Analisando a variabilidade Analise a figura abaixo. Veja que a maior parte da vida útil das lâmpadas produzidas pela PHILIPS varia de 700 horas até 1300 horas, com uma boa parte das lâmpadas com vida útil de 900 a 1100 horas. Pensando como consumidor, você gostaria de se deparar com tamanha variabilidade quando for comprar um pacote de lâmpadas? Veja que uma concorrente (OSRAM) irá tentar fabricar lâmpadas com vida útil menos variável; a vida útil terá uma média de 1000 horas, mas suas lâmpadas terão uma vida útil mais consistente, variando de 920 a 1080 horas, com boa parte das lâmpadas com duração entre 980 e 1020 horas. Distribuição da vida útil de 340 lâmpadas produzidas pela OSRAM

OSRAM

120

Quantidade

100

100

80

PHILIPS 70

60 40 20

70 40

40 10

10

0 700

800

900 920

1000

1100

1200

1300

1080

Horas

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 29 -

Em uma distribuição Normal, o Desvio padrão tem um significado especial, pois determina a distância da Média até um ponto dentro da distribuição, cada um com a mesma distância da Média. No caso abaixo, supomos (por fins didáticos) que o Desvio padrão do tempo de vida útil das lâmpadas é s=100 horas. 99,74%

s=100

95,44%

x

68,26%

120

Quantidade

100

Espera-se que cerca de 68,26% dos valores encontramse dentro de 1 desvio padrão da média; (no exemplo, 240 lâmpadas (70+100+70).

100

80 70

60 40 20

Espera-se que 95,44% dos valores encontram-se dentro de 2 desvios padrões da média; (no exemplo, 320 lâmpadas: 40+70+100+70+40)

70

S=100 S=100

40

A regra empírica Na distribuição normal é possível determinar a posição da maioria dos valores, usando as distâncias de 1, 2 ou 3 Desvios padrões da Média para estabelecer alguns marcos. A regra que lhe permite fazer isso se chama Regra empírica, que diz o seguinte:

40

10

Espera-se que 99,74% dos valores encontram-se dentro de 3 desvios padrões da média; (no exemplo, 340 lâmpadas: 10+40+70+100+70+40+10)

10

0 700

800

-3S

-2S

900

1000

1100 1200

1300

Estes resultados são aproximações. A regra empírica não pode ser aplicada às distribuições que não possuam uma forma de montanha em seu centro.

Horas

-1S

1S

2S

3S

ENCONTRANDO PROBABILIDADES NA DISTRIBUIÇÃO NORMAL Quando se tem uma variável aleatória com distribuição normal pode-se obter a probabilidade de essa variável assumir um valor em determinado intervalo, pela área sob a curva dentro dos limites do intervalo. Exemplo 1. Seja X a variável aleatória que representa os tempos de vida útil das lâmpadas produzidas pela PHILIPS Sendo a Média de vida útil das lâmpadas de 1000 horas com Desvio padrão de 100 horas, ache a probabilidade de a lâmpada ter vida útil entre 1000 e 1150 horas, isto é, P(1000 < z < 1150). Probabilidade procurada P(1000 < Z < 1150) P= 0,4332

Z= 1,50 700

800

900

1000

1100

1200

1300

PARA ACHAR A PROBABILIDADE, SIGA 2 PASSOS:

1º PASSO. Calcule o número de desvios padrão que o valor “1150” se distancia da média “1000”. Para isto, utilizamos a equação abaixo, chamada “escore Z”. EQUAÇÃO ESCORE Z

z

x - x s

Escore Z

Calculando o escore Z, temos: Média

Desvio padrão Variável aleatória procurada

z =

1150 - 1000 = 1,50 100

O resultado indica que 1150 está distante 1,50 desvios padrão da média. Use sempre 2 casas decimais. Veja demonstração da área de Z no gráfico acima.

O escore Z é uma medida que indica o número de desvios padrão de um valor a partir da média.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 30 -

2º PASSO. Com o escore Z de “1,50”, use a Tabela de Distribuição Normal Padrão para encontrar a probabilidade, como explicado abaixo Na 1ª coluna encontramos “1,5”. Em seguida, encontramos na 1ª linha “0”, que é o último algarismo de “1,50”. Na intersecção da linha e coluna encontramos 0,4332, que indica a probabilidade P(1000 < z < 1150) = 0,4332 ou 43,32% Interpretação: espera-se que 43,32% das lâmpadas tenham vida útil entre 1000 e 1150 horas

TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z

0

1

2

Último dígito 4 5

3

6

7

8

9

A área constante na tabela corresponde a área à direita (sinal positivo): Área = 0,5

-z

-3S

-2S

+z

-1S

0

1S

2S

3S

motivo da qual desconsideramos o sinal negativo no z-escore nas áreas à esquerda, pois a curva é simétrica em torno da Média, ou seja, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade. . A tabela não é de distribuição acumulada. Vamos ver alguns exemplos adiante.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 31 -

Exemplo 2. Continuando com os dados do exemplo 1, ache P(900 < z < 1000).

Quando partimos da média calculamos apenas um escore Z. Para lado esquerdo o escore Z sempre terá sinal negativo, que não será considerado, pois os dois lados são iguais em termos de probabilidades. Probabilidade procurada P(900 < Z < 1000)

EQUAÇÃO ESCORE Z

z

P= 0,3413

x - x s

Calculando, temos: z =

900 - 1000 = 100

-1,00 *

Probabilidade: na tabela temos: 0,3413 Z= -1,00 700

800

900

*Desconsidere o sinal negativo do escore Z

1000

1100

1200

1300

Interpretação: Espera-se que 34,13% das lâmpadas tenham vida útil entre 1000 e 1100 horas. Exemplo 3. Continuando com os dados do exemplo 1, ache P(900 < z < 1050).

Neste caso, calculamos dois escores Z e somamos as probabilidades: ADIÇÃO DE PROBABILIDADES Probabilidade procurada P= 0,5328 P(900 < Z < 1050)

. P1=0,3413

z1 = 900 - 1000 = - 1,00* 100

0,3413

+

P2=0,1915

z2 =

1050 - 1000 = 0,50 100 0,1915

Soma de probabilidades =

0,5328

Z2 =0,50 Z1= -1,00

700

800

900

1000

1100

1200

1300

Interpretação: Espera-se que 53,28% das lâmpadas tenham vida útil entre 900 e 1050 horas. Exemplo 4. Continuando com os dados do exemplo 1, ache P(1050 < z < 1150).

Neste caso, calculamos dois escores Z (de 1000 a 1150; e de 1000 a 1050). Depois subtraímos as probabilidades: SUBTRAÇÃO DE PROBABILIDADES

Probabilidade procurada P= 0,2417 P(1050 < Z < 1150) PZ2=0,1915

Z1 =

1150 - 1000 = 1,50 100 0,4332

Z2 =

1050 - 1000 = 0,50 100 0,1915

--

PZ1=0,4332

Z1=1,5 0

Subtração probabilidades =

0,2417

Z2= 0,50

700

800

900

1000

1100

1200

1300

Interpretação: Espera-se que 24,17% das lâmpadas tenham vida útil entre 1050 e 1150 horas.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 32 -

Exemplo 5. Continuando com os dados do exemplo 1, ache P( z < 850 horas) Ou seja, ache a probabilidade de a vida útil da lâmpada ser menor que 850 horas. Neste caso, P1 = 0,5 (meia área). Daí, calculamos Z2 e subtraímos as probabilidades: Probabilidade procurada P( Z < 850) Área = 0,5

SUBTRAÇÃO DE PROBABILIDADES P1 = (meia área)

P1=0,4332

0,5

P2=0,1915

--

PZ2=0,0668

Z2 =

P2=0,1915

Z1= -1,50

700

800

900

850 - 1000 = -1,50 100 0,4332

Subtração probabilidades = 0,0668

1000

1100

1200

1300

Interpretação: Espera-se que 6,68% das lâmpadas tenham vida útil abaixo de 850 horas. Exemplo 6. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. O fabricante oferece uma garantia de 800 horas, isto é, trocar as lâmpadas que apresentem falhas nesse período ou inferior. Fabrica 15.000 lâmpadas mensalmente. Quantas lâmpadas deverá trocar pelo uso da garantia, mensalmente? SUBTRAÇÃO DE PROBABILIDADES P1 = (meia área)

Probabilidade procurada P( Z < 800)

0,5

--

Garantia de 800 horas

Z2 =

800 - 1000 = - 2,00 00 0,4772

Subtração de probabilidades = 0,0228

700

800

900

1000

1100

1200

1300

Interpretação: Constatamos que 2,28% (0,0228) das lâmpadas não atenderão a garantia. Então o fabricante deverá substituir mensalmente: 15.000 x 0,0228 = 342 lâmpadas.

Z-ESCORE E VALOR DE “X” NA DISTRIBUIÇÃO NORMAL Na seção anterior você encontrou a probabilidade que x pudesse estar em um dado intervalo ao calcular a área sob a curva normal para um dado intervalo. Mas, e se lhe fosse dado uma probabilidade e você quisesse encontrar o valor de x? Encontrando o Z-ESCORE dada uma PROBABILIDADE Exemplo 7. Encontre o z- escore que corresponda à área de 0,2123 (21,23%) da área à direita? Observando a Tabela de Distribuição Normal Padrão encontramos z-escore de 0,56 conforme destacado abaixo.

TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Z

0

1

2

3

Último dígito 4 5

6

7

8

9

VÍDEOS DSTRIBUIÇÃO NORMAL https://www.youtube.com/watch?v=ec9HWoY2kt8

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 33 -

Capítulo 3 CORRELAÇÃO E REGRESSÃO

Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo “Existe relação entre o número de horas de estudo e as notas obtidas?”. Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz-se que as mesmas estão correlacionadas.

Uanderson Rebula de Oliveira

Análise Estatística


“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil

Faça o curso online no Udemy

Estatística I (para leigos): aprenda fácil e rápido!

Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br

Saiba mais Clique aqui

www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.


Administração

- 34 -

CORRELAÇÃO LINEAR SIMPLES INTRODUÇÃO Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo: Variável x Existe relação entre o número de horas de estudo... Quanto maior for a produção... Existe relação entre o tabagismo... Quanto maior a idade de uma casa... Existe relação entre o número de horas de treino... Existe relação entre o nível de pressão arterial... 

Variável y ...e as notas obtidas? ...maior será o custo total? ...e a incidência de câncer? ...menor será seu preço de venda? ...e os gols obtidos em uma partida de futebol? ...com a idade das pessoas?

Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz-se que as mesmas estão correlacionadas.

Correlação linear simples é uma técnica usada para analisar a relação entre duas variáveis. DIAGRAMA DE DISPERSÃO EXEMPLO 1. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão

Número de horas de estudo versus notas obtidas

A B C D E F G H

Y

(horas de estudo)

(notas obtidas)

8h 2h 3h 4h 4,5h 6h 5h 7h

9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5

H o r as estudadas ver sus No tas o btidas 10 9

Ponto de interseção (Aluno D)

8 Y (Notas obti das )

Aluno

X

7 6 5 4 3 2 1 0 0

1

2

3

4

5

6

7

8

9

x (Horas de es tudo)

FONTE: dados fictícios

Representando os pares ordenados (x,y), obtemos diversos pontos grafados que denominamos diagrama de dispersão. Para construí-lo, basta pontuar a interseção de cada eixo x,y. Por exemplo, o aluno D estudou 4h (eixo x) e obteve a nota 5,0 (eixo y). Observe no diagrama uma linha vermelha pontilhada e o ponto de interseção. Esse diagrama nos fornece uma idéia grosseira, porém útil, da correlação existente. Ao observar o diagrama como um todo, podemos afirmar que existe uma correlação entre as variáveis x,y pois, quando x cresce, y também tende a crescer.

CORRELAÇÃO LINEAR

Podemos imaginar que, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Dizemos então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear.

9 8 Y (Notas obti das )

Os pontos grafados, vistos em conjunto, formam uma elipse (trajetória, distribuição dos pontos) em diagonal.

H o r as estudadas ver sus No tas o btidas 10

7 6 5

Reta imaginária

4 3 2 1 0 0

1

2

3

4

5

6

7

8

x (Horas de es tudo)

Uanderson Rebula de Oliveira

Análise Estatística

9


Administração

- 35 -

Assim, uma correlação é: Uma direção para cima sugere que se: - x aumenta, - y tende a aumentar.

Uma direção para baixo sugere que se: - x aumenta, - y tende a diminuir.

EXEMPLO 2. Consideremos na tabela abaixo os meses de Jan a Set, o aumento mensal do preço das refeições (x) e a média do número de clientes ao mês (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão

Aumento do preço da refeição versus média de clientes por mês

Jan Fev Mar Abr Jun Jul Ago Set

Y

(preço refeição)

(média clientes)

R$ 5,90 R$ 8,50 R$ 10,90 R$ 13,20 R$ 15,90 R$ 18,50 R$ 21,90 R$ 24,90

154 139 133 128 115 99 80 67

Aumento do p r eço da r efeição ver sus média clientes p /dia 180 Y (médi a de c l i entes p/di a)

Mês

X

160 140 120 100 80 60 40 20 0 0,00

5,00

10,00

15,00

20,00

25,00

30,00

x (P reç o ref ei ç ão)

FONTE: dados fictícios

COEFICIENTE DE CORRELAÇÃO DE PEARSON Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo (pessoal). Uma maneira mais precisa de se medir o tipo e o grau de uma correlação linear entre duas variáveis é calcular o coeficiente de correlação.

Coeficiente de correlação é uma medida do grau de relação entre duas variáveis. Os estatísticos criaram a equação ao lado para obter o grau de correlação. Na verdade é chamado de coeficiente de Pearson, em homenagem ao estatístico inglês Karl Pearson (1857-1936).

Onde: r = coeficiente de correlação e n = tamanho da amostra

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 36 -

EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule o coeficiente de correlação r. Cálculo do r: Número de horas de estudo versus notas obtidas

Aluno

X

Y

(horas de estudo)

(notas obtidas)

8h 2h 3h 4h 4,5h 6h 5h 7h =39,5

9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5 =48,5

A B C D E F G H

X

2

2

Y

XY

64 81 72 4 9 6 9 16 12 16 25 20 20,25 36 27 36 49 42 25 49 35 49 56,25 52,5 =223,25 =321,25 =266,5

Interpretação: O coeficiente de correlação r = 0,975 indica que o grau de relação entre as duas variáveis é “Muito forte”, além de ser “Positiva” (pois x aumenta, y também aumenta). Então, podemos afirmar que, conforme aumentam as horas de estudo, as notas obtidas também aumentam. Veja mais detalhes abaixo: O grau de relação r pode variar de -1 até +1, conforme ilustrado abaixo: Perfeita

-1

Nula

-0,9

Muito forte

-0,6 Forte

-0,3 Fraca

Correlação linear NEGATIVA ( x aumenta, y diminui )

y

r = - 0,813

x

Muito Fraca

Perfeita

0

0,3 Muito Fraca

r=0

0,6 Fraca

0,9 Forte

+1

Muito forte

Correlação linear POSITIVA ( x aumenta, y aumenta )

y

r = 0,824

x

r=0,975 Positiva e “Muito forte”

Notas: Correlação e causalidade. O fato de duas variáveis serem fortemente correlacionadas não implica uma relação de causa e efeito entre elas. Um estudo mais profundo é usualmente necessário para determinar se há uma relação causal entre as variáveis. As seguintes questões devem ser consideradas ao pesquisador: - Há uma relação direta de causa e efeito entre as variáveis? - É possível que a relação entre duas variáveis seja uma coincidência? Mais informações em Larson, 2010, capítulo 9.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 37 -

REGRESSÃO LINEAR SIMPLES INTRODUÇÃO Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é determinar a equação da linha que melhor modela os pontos grafados. Essa linha é chamada de linha de regressão (ou linha de melhor ajuste). Portanto, a análise de regressão linear simples tem por objetivo obter a equação matemática do ajuste da reta que representa o melhor relacionamento numérico linear entre as duas variáveis em estudo. A Regressão Linear determina o ajuste da reta, chamada de “Linha de Regressão”

H o r as estudadas ver sus No tas o btidas 10 9 Y (Notas obti das )

8 7 6 5 4 3 2 1 0 0

1

2

3

4

5

6

7

8

9

x (Horas de es tudo)

Ao se construir um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos grafados. Para tanto, devemos calcular o “ajustamento da reta aos pontos”. Eis alguns exemplos de diagramas de dispersão com o ajustamento da reta aos pontos:

AJUSTAMENTO DA RETA AOS PONTOS GRAFADOS Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguintes equações: 1º - Calcular o Coeficiente angular a:

2º - Calcular o Coeficiente linear b:

(dá a inclinação da reta)

(ordena o ponto em que a reta corta o eixo)

3º - Calcular o ajustamento da reta ̂ :

b = ̅ - a̅

Onde: b = Coeficiente linear Onde: a = Coeficiente angular n = tamanho da amostra

Uanderson Rebula de Oliveira

̅ = Média de y

a = Coeficiente angular

̅ = Média de x

̂ = aX + b

Onde:

̂ = Ajustamento da reta a = Coeficiente angular X = É um valor arbitrário. (Ex.: nº 5) b = Coeficiente linear

Análise Estatística


Administração

- 38 -

EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule a reta ajustada nos pontos grafados. Número de horas de estudo versus notas obtidas

Aluno A B C D E F G H

1º - Calcular o Coeficiente angular a:

X

Y

(horas de estudo)

(notas obtidas)

8h 2h 3h 4h 4,5h 6h 5h 7h

9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5

=39,5

=48,5

X

2

64 4 9 16 20,25 36 25 49

XY 72 6 12 20 27 42 35 52,5

=223,25 =266,5

2º - Calcular o Coeficiente linear b: b = Calculando as Médias

a =

8 a = 0,958

3º - Calcular o ajustamento da reta :

- a

= aX + b

e , temos:

= 48,5 = 6,063 8

266,5 - (39,5) . (48,5) 8 2 223,25 - (39,5)

= 0,958 . 5 + 1,33 = 39,5 = 4,937 8

Então: b = 6,063 – 0,958 x 4,937 b = 1,33 Para traçar a reta no diagrama de dispersão, basta determinar os pontos b,

= 6,12 Nota: 5 é um valor arbitrário.

e o arbitrário:

Note que os pontos grafados estão muito próximos da reta. Isso significa que existe uma correlação muito forte entre as duas variáveis em estudo

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 39 -

CAPÍTULO 4 TESTE DE HIPÓTES

É possível testar afirmativas acerca de populações?

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 40 -

Conceitos introdutórios TESTE DE HIPÓTESE é um procedimento usado para testar se a afirmação acerca de uma população é verdadeira ou não, com base em dados amostrais. Uma hipótese é uma suposição quanto ao valor de um parâmetro populacional. O teste de hipótese é tão somente uma regra de decisão para ACEITAR ou REJEITAR uma hipótese qualquer (uma suposição, uma afirmação), com base nos elementos amostrais.

EXEMPLO. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 50 veículos obtendo uma média de 17 km/L, que é diferente da informada pelo fabricante.  O resultado de 17km/L não garante que a afirmação do fabricante seja falsa, pois você está se baseando em dados amostrais. Para haver esta garantia só realizando um censo (toda a população), o que é teoricamente impossível.  O que devemos avaliar, com auxílio do Teste de Hipótese, é se a afirmação é verdadeira ou não, com base nos dados amostrais.

Organização das hipóteses, Erros de decisão, Nível de significância e Tipos de testes Organização das hipóteses. Com base no exemplo, podemos formular duas hipóteses: “Nula” e “Alternativa”. Na Hipótese Nula , diremos que a média populacional é igual aquela que se supõe verdadeira; e na Hipótese Alternativa, que nasce de uma desconfiança, diremos que a média populacional não será igual àquela tida como verdadeira. Ora, quando um valor A não é igual a um valor B, haverá três possibilidades: 1ª) A ≠ B ou 2ª) A > B ou 3ª) A < B. Estamos falando, obviamente, da Hipótese Alternativa (Ha). Então, resumindo, temos:

Hipótese Nula: H0 → sugere que a afirmação é verdadeira. Hipótese Alternativa: Ha → sugere que a afirmação é falsa.

No exemplo, temos que:

H0 : µ = 18 km/L Ha : µ < 18 km/L

As hipóteses Nula e Alternativa sempre serão confrontadas. De todo o exposto, já podemos tirar algumas conclusões:

H0 será sempre de igualdade: H0 : µ = 18 km/L ...e é aquela que será testada.

Ha será sempre de desigualdade: Ha : µ ≠ 18 km/L Ha: µ < 18 km/L Ha : µ > 18 km/L

Nota: O que definirá se Ha trará um sinal ≠ ou > ou < será o resultado obtido na amostra.

Erros de decisão. Uma vez realizado o teste com a Hipótese Nula (H0), poderão advir dois resultados: Decisão correta

H0 é verdadeira, sendo, portanto, ACEITA. H0 é falsa, devendo, pois, ser REJEITADA. → (ao rejeitar H0, obviamente aceitamos a Hipótese Alternativa Ha).

Entretanto, ao realizar um teste, o pesquisador pode errar de duas formas:

H0 é verdadeira, mas será REJEITADA. → Chamamos de ERRO TIPO I. Erros de decisão

(é o mesmo que condenar um inocente! O réu disse a verdade, mas seus argumentos foram rejeitados).

H0 é falsa, mas será ACEITA. → Chamamos de ERRO TIPO II. (é o mesmo que inocentar um culpado! O réu mentia, mas seus argumentos foram aceitos).

Nível de significância α. Note que o erro Tipo I é pior pois condenar um inocente é algo terrível, e este erro o pesquisador deve evitar a todo o custo! Porém, há sempre uma probabilidade de cometê-lo. Esta probabilidade é chamada de Nível de Significância α (alfa). Portanto:

O NÍVEL DE SIGNIFICÂNCIA α é a PROBABILIDADE de se cometer um ERRO TIPO I, devendo ser sempre a menor possível. Normalmente, usamos um Nível de Significância de 10% (0,10); 5% (0,05); ou 1% (0,01). Mas pode-se usar qualquer α. Tipos de Testes. Usamos a curva normal (ou t) para realizar os testes, sendo três tipos possíveis, e o que será usado depende do sinal presente na hipótese alternativa Ha. Teste Unilateral à esquerda H0 : µ = 18 km/L Ha : µ < 18 km/L α  5% Região de rejeição α  0,05

Região de aceitação 0,95

18km/L (0,5-0,05=0,45)  Z=-1,65

Este teste será usado quando se tem um valor mínimo aceitável. Sinal usado em Ha: <.

Teste Unilateral à direita H0 : µ = 18 km/L Ha : µ > 18 km/L

Teste Bilateral H0 : µ = 18 km/L Ha : µ ≠ 18 km/L

α  5% Região de aceitação

0,95

18km/L

Região de rejeição α  0,05

Z=+1,65  (0,5-0,05=0,45)

Este teste será usado quando se tem um valor máximo aceitável. Sinal usado em Ha: >.

Região de rejeição α 0,025 2

α  5%

Região de aceitação

Região de rejeição α  0,025 2

0,95

Z=-1,96

18km/L

Z=+1,96  (0,95/2 = 0,4750)

Será usado quando se tem um valor dentro de um intervalo aceitável. Sinal usado em Ha: ≠.

TOMANDO A DECISÃO: A Região de rejeição (demonstrada no gráficos) é o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a Hipótese Nula (H0). Se a estatística de teste cair nesta região, diremos que a afirmativa do fabricante é falsa, o que fará com que rejeitemos a Hipótese Nula (H 0). Mas, se a estatística de teste cair na Região de aceitação, diremos que a afirmativa é verdadeira. O termo “estatística de teste” é feito por meio de cálculos que serão apresentados a seguir. O nível de significância α  5% (demonstrado nos gráficos) é apenas um exemplo, pois podemos usar também outros níveis.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 41 -

Teste de Hipótese para média (amostras grandes n > 30)

(Distribuição Normal z)

Usamos a Distribuição Normal (z) para realizar o teste de hipótese para amostra maior que 30. Quando o desvio padrão é conhecido, mesmo com amostra menor que 30, também podemos usar a Normal. Embora tenha 3 tipos de testes, na prática aplicamos um ou outro, nunca os três conjuntamente. Mostraremos a aplicação dos três testes em problemas diferentes.

z

A estatística de teste usada para média é:

x  s

(n > 30)

x = média amostral µ = média Hipotética (H0) s = desvio padrão n = tamanho da amostra

n

z = Estatística de teste

EXEMPLO 1. TESTE UNILATERAL À ESQUERDA. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 50 veículos da mesma marca, obtendo uma média de 17 km/L com desvio padrão de 3km/L. Testar a hipótese, contra a alternativa de que o consumo é menor que 18km/L, com Nível de Significância de 6%. 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ < 18 km/L

4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) :

2º passo: Definir o tipo de teste a ser usado: Como a média amostral foi 17km/L, temos um valor mínimo aceitável. O sinal é <, logo, usamos o unilateral à esquerda.

-1,56

6º passo: Verifique se a estatística de teste z caiu na Região de rejeição: Região de rejeição α  0,06

Região de aceitação 0,94

n

18km/L

17  18 = -2,35 3 50

7º e último passo: Tomada de decisão: Note que a estatística de teste z caiu na Região de rejeição. Então, você deverá REJEITAR A HIPÓTESE NULA (Ho). Ou seja, não se pode aceitar que o consumo médio de combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja menor que este valor, com uma probabilidade de erro de 6%.

18km/L

-2,35 -1,56 -3z -2z -1z 0

x  s

0,94

z

Ao procurar 0,44 na tabela Normal, encontramos z = - 1,56 (como o teste é “unilateral à esquerda”, o escore z será negativo).

estatística de teste (obtido no 5º passo)

z

Região de aceitação

Região de rejeição α  0,06

3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=6% (0,06) | 0,5 – 0,06 = 0,44 → z = -1,56

5º passo: Calcular a estatística de teste:

+1z

+2z +3z

EXEMPLO 2. TESTE UNILATERAL À DIREITA A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar a afirmação e analisa 35 veículos da mesma marca, obtendo uma média de 18,5 km/L com desvio padrão de 2,5 km/L.. Testar a hipótese, contra a alternativa de que o consumo é maior que 18km/L, com Nível de Significância de 4%. 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ > 18 km/L

4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) :

2º passo: Definir o tipo de teste a ser usado: Como a média amostral foi 18,5km/L, temos um valor máximo aceitável. O sinal é >, logo, usamos o unilateral à direita. 3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=4%(0,04) | 0,5 – 0,04 = 0,46 → z = +1,75 Ao procurar 0,46 na tabela Normal, encontramos z = +1,75 (como o teste é “unilateral à direita”, z será positivo).

6º passo: Verifique se a estatística de teste z caiu na Região de rejeição: Região de aceitação

estatística de teste (obtido no 5º passo)

0,96

18km/L

Região de rejeição α  0,04

z=+1,75

Região de aceitação

5º passo: Calcular a estatística de teste:

z 0,96

Região de rejeição α  0,04

n z

18km/L z=+1,75

x  s

18,5  18 = +1,18 2,5 35

7º e último passo: Tomada de decisão: Note que a estatística de teste z não caiu na Região de Rejeição. Então, você deverá ACEITAR A HIPÓTESE NULA (Ho). Ou seja, pode-se aceitar que o consumo médio de combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja maior que este valor, com uma probabilidade de erro de 4%.

z=+1,18 -3z

-2z

Uanderson Rebula de Oliveira

-1z 0 +1z +2z +3z

Análise Estatística


Administração

- 42 -

EXEMPLO 3. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar a afirmação e analisa 42 veículos da mesma marca, obtendo uma média de 16,8 km/L com desvio padrão de 2 km/L. Testar a hipótese, contra a alternativa de que o consumo não é de 18km/L, com Nível de Significância de 10%. 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ ≠ 18 km/L

4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) :

2º passo: Definir o tipo de teste a ser usado: A idéia não é testar se é menor ou maior. Queremos testar um intervalo aceitável. O sinal é ≠, logo, usamos o Bilateral.

Região de rejeição α 0,05 2

3º passo: Encontrar escore z que estabelece os limites de 0,90 Rejeição/Aceitação: α=10% | /2 = 0,45 → z = -1,65 e +1,65

Região de rejeição α 0,05 2

Região de rejeição α  0,05 2

0,90

Z=-1,65

z=-3,88 -3z

-2z

18km/L

Região de rejeição α  0,05 2

18km/L

n z

Z=+1,65 (0,90/2 = 0,45)

x  s

16,8  18 = -3,88 2 42

6º passo: Verifique se a estatística de teste z caiu na Região de rejeição: Região de aceitação

z 0,90

Z=-1,65

Ao procurar 0,45 na tabela Normal, encontramos z = ±1,65 (como o teste é “Bilateral”, usamos z positivo e negativo).

estatística de teste (obtido no 5º passo)

Região de aceitação

5º passo: Calcular a estatística de teste:

7º e último passo: Tomada de decisão: Note que a estatística de teste z caiu na Região de Rejeição. Então, você deverá REJEITAR A HIPÓTESE NULA (Ho). Ou seja, não se pode aceitar que o consumo médio de combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja diferente deste valor, com uma probabilidade de erro de 10%.

Z=+1,65

-1z 0 +1z +2z +3z

Teste de Hipótese para média (amostras pequenas n ≤ 30)

(Distribuição t de Student)

Usamos a Distribuição t de Student (t) para realizar o teste de hipótese para amostra menor ou igual a 30. A estatística de teste usada para média é:

t

(n ≤ 30)

x  s n

x = média amostral µ = média Hipotética (H0) s = desvio padrão n = tamanho da amostra t = Estatística de teste t Student

Efetuar o Teste usando a Distribuição t de Student é similar a efetuar o Teste com a Normal z. Diferese apenas no 3º passo, onde usamos n - 1 graus de liberdade e a tabela t para encontrar o limite de Rejeição/Aceitação.

EXEMPLO 4. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 22 veículos da mesma marca, obtendo uma média de 17,4 km/L com desvio padrão de 1,7km/L. Testar a hipótese de que o consumo é menor que 18km/L, com Nível de Significância de 5%. 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ < 18 km/L

4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função de t (nível α) :

2º passo: Definir o tipo de teste a ser usado: Como a média amostral foi 17,4km/L, temos um valor mínimo aceitável. O sinal é <, logo, usamos o unilateral à esquerda.

Região de rejeição α  0,05

3º passo: Encontrar t que estabelece os limites de Rejeição/Aceitação: gl=n-1→ 22–1=21 → -1,721 | α=5% (0,05)

Região de aceitação 0,95

-3z

Uanderson Rebula de Oliveira

0

n

18km/L

17,4  18 = -1,65 1,7 22

7º e último passo: Tomada de decisão: Note que a estatística de teste z não caiu na Região de rejeição. Então, você deverá ACEITAR A HIPÓTESE NULA (Ho). Ou seja, pode-se aceitar que o consumo médio de combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja menor que este valor, com uma probabilidade de erro de 5%.

18km/L

-1,721 -1,65 -2z -1z

x  s

0,95

-1,721

6º passo: Verifique se a estatística de teste t caiu na Região de rejeição:

A única diferença da t para z está no 3º passo.

t

t

Analise a tabela t de Student na próxima página: Usando Unilateral, α=0,05 com g.l.= 21, encontramos t = 1,721. (como o teste é “unilateral à esquerda”, t será negativo).

Região de rejeição α  0,05

Região de aceitação

5º passo: Calcular a estatística de teste:

+1z

+2z

+3z

Análise Estatística


Administração

- 43 -

TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL) 50% 80% 90% 95% 98% 0,25 0,10 0,05 0,025 0,01 0,50 0,20 0,10 0,05 0,02 1,000 3,078 6,314 12,71 31,82 0,816 1,886 2,920 4,303 6,965 0,765 1,638 2,353 3,182 4,541 0,741 1,533 2,132 2,776 3,747 0,727 1,476 2,015 2,571 3,365 0,718 1,440 1,943 2,447 3,143 0,711 1,415 1,895 2,365 2,998 0,706 1,397 1,860 2,306 2,896 0,703 1,383 1,833 2,262 2,821 0,700 1,372 1,812 2,228 2,764 0,697 1,363 1,796 2,201 2,718 0,695 1,356 1,782 2,179 2,681 0,694 1,350 1,771 2,160 2,650 0,692 1,345 1,761 2,145 2,624 0,691 1,341 1,753 2,131 2,602 0,690 1,337 1,746 2,120 2,583 0,689 1,333 1,740 2,110 2,567 0,688 1,330 1,734 2,101 2,552 0,688 1,328 1,729 2,093 2,539 0,687 1,325 1,725 2,086 2,528 0,686 1,323 1,721 2,080 2,518 0,686 1,321 1,717 2,074 2,508 0,685 1,319 1,714 2,069 2,500 0,685 1,318 1,711 2,064 2,492 0,684 1,316 1,708 2,060 2,485 0,684 1,315 1,706 2,056 2,479 0,684 1,314 1,703 2,052 2,473 0,683 1,313 1,701 2,048 2,467 0,683 1,311 1,699 2,045 2,462 0,674 1,282 1,645 1,960 2,326

Confiança, c Unilateral, α Bilateral, α g.l. 1

Níveis de Significância, α

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Teste de Hipótese para Proporções P

99% 0,005 0,01 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576

(Distribuição Normal)

Quando lidamos com Proporções, a população é constituída por elementos de dois tipos, isto é, cada elemento pode ser interpretado como Sucesso e Fracasso, além dos eventos ser independentes. Nestas condições, a variável aleatória segue uma distribuição Binomial. De acordo com Teorema do Limite Central, para amostra suficientemente grande (n > 30), a distribuição Binomial aproxima-se a uma distribuição Normal. Daí é imediato verificar que a proporção amostral p também aproxima-se da distribuição normal. Ocorre que, da mesma forma que o Teste de Hipótese para média, frequentemente estamos interessados em Testar Hipóteses para proporções populacionais.

A estatística de teste usada para Proporções é:

z

p  p0 p0( 1  p0) n

p = proporção amostral p0 = proporção Hipotética (H0) n = tamanho da amostra z = Estatística de teste z (Normal)

EXEMPLO 5. Inspeciona-se uma amostra de 200 peças de uma grande remessa, encontrando-se 8% de peças defeituosas (200 x 0,08 = 16 peças defeituosas). O fornecedor garante que não haverá mais de 6% de peças defeituosas em toda a remessa. Testar a hipótese de que a proporção de peças defeituosas é maior que 6%, com Nível de Significância de 5%. 1º passo: Formular as hipóteses: H0 : p0 = 6% Ha : p > 6% 2º passo: Definir o tipo de teste a ser usado: Como a proporção amostral foi 8%, temos um valor máximo aceitável. O sinal é >, logo, usamos unilateral à direita.

4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) Região de aceitação

z 0,95

Região de rejeição α  0,05

3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=5% | 0,5 – 0,05= 0,45 → z=+1,65 Ao procurar 0,45 na tabela Normal, encontramos z = +1,65 (como o teste é “unilateral à direita”, usamos z positivo).

z z=+1,65

Calculadora: 0,02

Uanderson Rebula de Oliveira

5º passo: Calcular a estatística de teste z:

( ( 0,06x0,94)

p  p0 p0( 1  p0) n 0,08  0,06 0,06( 1  0,06) 200 200) = 1,19

Análise Estatística

= +1,19


Administração

- 44 -

6º passo: Verifique se a estatística de teste z caiu na Região de rejeição: Região de aceitação

Estatística de teste (obtida no 5º passo)

0,95

Região de rejeição α  0,05

z=+1,65

7º e último passo: Tomada de decisão: Note que a estatística de teste z não caiu na Região de Rejeição. Então, você deverá ACEITAR A HIPÓTESE NULA (Ho). Ou seja, pode-se aceitar que a proporção de peças defeituosas seja de 6%, contra a hipótese de que seja maior que este valor, com uma probabilidade de erro de 5%.

z=+1,19 -3z

-2z

Uanderson Rebula de Oliveira

-1z 0 +1z +2z +3z

Análise Estatística


Administração

- 45 -

Teste para duas amostras - Conceitos introdutórios Nos capítulos anteriores, mostramos como realizar TESTES DE HIPÓTESES para situações que envolvem UMA ÚNICA AMOSTRA de dados extraída de UMA ÚNICA POPULAÇÃO. Agora, você ESTENDERÁ o TESTE DE HIPÓTESE para procedimentos que COMPARAM estatísticas oriundas de DUAS AMOSTRAS de dados extraídas de DUAS POPULAÇÕES.

Justificativas e exemplos (adaptado de Farias et al, 2003): Em muitas áreas da atividade humana há uma busca contínua por novos métodos, novos procedimentos que superem ou melhorem, em certo sentido, aqueles já existentes:    

No setor de transportes, procuramos motores de maior rendimento e de menor ruído. A medicina procura drogas com maior poder de cura e o mínimo possível de efeitos colaterais. Na agricultura, buscamos variedades mais adequadas e mais produtivas de cereais. Um produtor quer saber se o novo cimento-e-cola para fixar azulejos tem maior grau de aderência que o atual.

Em todas essas situações, é preciso comparar as técnicas usuais com os métodos alternativos. A comparação da eficiência de duas drogas, de dois métodos de produção de cimento-e-cola ou, em geral, de dois tratamentos é, pois, uma questão importante que surge frequentemente no trabalho de pesquisa e desenvolvimento. A escolha entre dois tratamentos diferentes não é uma tarefa tão simples como, a princípio, possa parecer. É necessário realizar experimentos, coletar informações e fazer inferências (julgar) a partir da evidência experimental. Tomemos o caso de duas terapias alternativas. Se todos os portadores de determinada doença se comportassem de maneira idêntica em relação aos tratamentos utilizados, bastaria examinar o comportamento de um frente às alternativas existentes; a decisão sobre qual é o melhor deles seria óbvia. Nenhuma análise estatística seria necessária. Tal, entretanto, não é o caso. A reação a um tratamento varia de indivíduo para indivíduo, e, via de regra, não há tratamento ótimo para todos. Como, em geral, não se conhece a reação de cada indivíduo, prescreve-se o tratamento que, em média, dá os melhores resultados. O procedimento para determinar qual dos dois tratamentos é, em média, o mais eficiente envolve a seleção de duas amostras e a comparação dos resultados obtidos. Neste capítulo, discutiremos como comparar os efeitos médios de dois tratamentos.

Teste de Hipótese para a diferença de duas médias Para amostras dependentes (dados emparelhados) Duas amostras são dependentes se cada membro de uma amostra corresponde a um membro de outra amostra. Amostras dependentes envolvem duplas idênticas, “antes e depois” de resultados para a mesma pessoa ou objeto. Veja ao lado.   

Para cada par definido, o valor da primeira amostra está claramente associado ao respectivo valor da segunda amostra. Nestes casos as duas amostras serão de mesmo tamanho. Amostras dependentes também são chamadas de amostras relacionadas ou dados emparelhados.

“Antes”

“Depois”

amostra 1

amostra 2

A equação para resolução de dados emparelhados é mostrada abaixo. EQUAÇÃO DADOS EMPARELHADOS (use t ou z)

d = média das diferenças, dada por

d d n

Estatística de teste

t

Sd = desvio padrão das diferenças, dado por

  d 2  d2     n  Sd  n 1

d Sd n

“d” é a diferença de cada dado, encontrado por X2-X1

t = distribuição t de Student. Use a Normal Z se n>30.

2

“d ” é a diferença de cada dado, ao quadrado

n = tamanho da amostra.

Exemplo 1. Dez cobaias adultas foram submetidas ao tratamento com certa ração para engordar, durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no princípio e no fim de semana, designados respectivamente por X1 e X2 são dados a seguir. Ao nível de 1% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso médio dos animais? (Moretim) Resolução: A tabela com os dados da experiência é mostrada abaixo, juntamente com os cálculos do 1º e 2º passos.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 46 -

1º passo: Encontrar d (X2-X1) e ∑d (para permitir cálculo de d , que é a média das diferenças). 2 2 2º passo: Encontrar d e ∑d (para permitir cálculo de Sd, que é o desvio padrão das diferenças). Dados da experiência

Cobaia

X1

X2

1

635 704 662 560 603 745 698 575 633 669

640 712 681 558 610 740 707 585 635 682

2 3 4 5 6 7 8 9 10

diferença d (X2-X1)

5 8 19 -2 7 -5 9 10 2 13 ∑d=66

3º passo: Calcular d

2

d

25 64 361 4 49 25 81 100 4 169 2 ∑d =882

d

 d  66 = 6,6 n 10

n é o tamanho da amostra

4º passo: Calcular Sd   d 2  d2     n  Sd  n 1

 662  882     10  = 7,043 10  1

5º passo: Executar o Teste de Hipótese. 5.1 Formular as hipóteses Em termos da diferença ”d”, as hipóteses são descritas como: H0 : µ = 0 Ha : µ > 0 TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL) Confiança, c Unilateral, α Bilateral, α g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

50% 0,25 0,50 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,674

80% 0,10 0,20 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,282

90% 0,05 0,10 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,645

95% 0,025 0,05 12,71 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 1,960

98% 0,01 0,02 31,82 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,326

99% 0,005 0,01 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576

5.2 Definir o tipo de teste a ser usado O sinal é >. Então o teste será unilateral à direita. 5.3 Encontrar t que estabelece limites de Aceitação/Rejeição gl=n-1 10-1=9 → 2,821 | α=1% (0,01) Usando Unilateral, α=0,01 com g.l.= 9, encontramos t = 2,821 (veja na tabela t ao lado). Como o teste é “unilateral à direita”, t será positivo.

5.4 Desenhe as regiões de Aceitação/Rejeição Região de aceitação

0,99

Região de rejeição α  0,01

t=+2,821

5.5 Calcular a estatística de teste:

t

d Sd

6,6 7,043

n

= 2,96

10

5.6 Verifique se t caiu na região de Rejeição Região de aceitação

0,99

Região de rejeição α  0,01

+2,821

+2,96 5.7 Conclusão: A estatística de teste t caiu na Região de Rejeição. Então, você deverá REJEITAR A HIPÓTESE NULA (Ho). Ho é falsa. Não se pode aceitar que o peso se manteve. Então, concluímos que o uso da ração contribui para o aumento do peso médio dos animais.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 47 -

Para amostras independentes (dados não emparelhados) Duas amostras são independentes se a amostra selecionada de uma das populações não é relacionada à amostra selecionada da segunda população. Veja ao lado.  Em muitas situações em que desejamos comparar as médias dos efeitos de dois tratamentos, não se utiliza o esquema de dados emparelhados, seja porque o emparelhamento não é possível, seja porque não é a maneira mais conveniente de se fazer a comparação. Dividem-se então os indivíduos em estudo em dois grupos separados.  Neste caso as duas amostras podem ser de tamanhos diferentes.

amostra 1

amostra 2

 Se os dados não são emparelhados, não terá sentido calcular as diferenças “d” entre os valores das duas amostras, e o teste deverá ser baseado na diferença X1 - X2 entre as médias das duas amostras. Temos dois casos para amostras independentes: teste Z para amostras grandes (n>30, ou se o desvio padrão for conhecido) e teste t para amostras pequenas (n≤30, ou se o desvio padrão for desconhecido).

Teste Z para amostras grandes (n>30) EQUAÇÃO TESTE Z DADOS NÃO EMPARELHADOS (n>30)

Estatística de teste A estatística de teste z segue uma distribuição normal.

z

X1 =média da amostra população 1 X 2 = média da amostra população 2 S1 = desvio padrão da população 1 S2 = desvio padrão da população 2

X1  X 2 (S1) 2 (S2) 2  n1 n2

n1 = tamanho da amostra população 1 n2 = tamanho da amostra população 2

Exemplo 1: Um fabricante produz dois tipos de pneus, A e B. Uma grande companhia de taxi testou a durabilidade de 50 pneus do tipo A, obtendo média de 24.000km e desvio padrão de 2.500km, e 40 pneus do tipo B, obtendo média de 26.000km e desvio padrão de 3.000km. Ao nível de 4% de significância, testar a hipótese de que a duração média dos dois tipos de pneus é diferente (ou seja, não é a mesma).

1º passo: Formular as hipóteses H0 : X 1 = X 2 Ha : X 1 ≠ X 2

4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função de z (nível α)

2º passo: Definir o tipo de teste a ser usado Queremos testar se a média de A e B é diferente. O sinal é ≠. Usamos o Bilateral, pois testaremos um intervalo aceitável. 3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: 0,96 α=4% | /2 = 0,48 → z = -2,05 e +2,05

Região de rejeição α 0,02 2

z

Região de aceitação 0,96

Z=-2,05

5º passo: Calcular a estatística de teste

Região de rejeição α  0,02 2 Z=+2,05 (0,96/2 = 0,48)

z

X1  X 2 (S1) 2 (S2) 2  n1 n2

24.000  26.000 (2.500) 2 (3.000) 2  50 40

Ao procurar 0,48 na tabela Normal, encontramos z = ±2,05 (pois 0,4798 é mais próximo. Como o teste é “Bilateral”, usamos z positivo e negativo).

6º passo: Verifique se a estatística de teste caiu na Região de rejeição: estatística de teste (obtido no 5º passo)

Região de rejeição α 0,02 2

Região de aceitação

Região de rejeição α  0,02 2

0,96

z=-2,05

7º e último passo: Tomada de decisão: A estatística de teste caiu na Região de Rejeição. Então, deve-se REJEITAR A HIPÓTESE NULA (Ho). Ou seja, Não se pode aceitar que a durabilidade média dos pneus é a mesma. Concluímos que os pneus tem durabilidade média diferente.

z=+2,05

z=-3,38

Uanderson Rebula de Oliveira

Análise Estatística

 3,38


Administração

- 48 -

REFERÊNCIAS BIBLIOGRÁFICAS ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2 ed. São Paulo: Cengage Learning, 2009. 597 p. BARBETTA et al. Estatística para cursos de engenharia e informática. 2 ed. São Paulo: Atlas, 2008. COSTA NETO, Pedro Luiz de Oliveira; CYMBALISTA, Melvin. Probabilidades. 2 ed. São Paulo: Edgard Blucher, 2005. CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p. FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003. 340 p. GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova abordagem – volume único. São Paulo: FTD, 2002. 712 p. HAZZAN, Samuel. Fundamentos da matemática elementar: combinatória e probabilidade. 7 ed. São Paulo: Atual editora, 2004. 184p. LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p. LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p. LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p. LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999. MANDIN, Daniel. Estatística descomplicada. 9 ed. Brasília: Vestcon, 2002. 227 p. MEYER, Paul L. Probabilidade: aplicações à estatística. 2 ed.. Rio de Janeiro: LTC, 1983. 426 p. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de Janeiro: LTC, 2003. 465 p. MORETTIN, Luiz Gonzaga. Estatística básica: probabilidade e inferência. São Paulo: Pearson, 2010. 375 p. ROSS, Sheldon. Probabilidade: um curso moderno com aplicações. 8 ed.Porto Alegre: Bookman,2010. 826p. RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p. SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2 ed. São Paulo: Atlas, 1996. 189 p. SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p. SPIEGEL, Murray R. Estatística. Coleção Shaum. São Paulo: McGraw-Hill do Brasil, 1977. 580 p. TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p. URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência Moderna, 2010.530 p. VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 49 -

ANEXO I - INDICAÇÃO DE MATERIAL DIDÁTICO PARA AUXÍLIO DAS AULAS 1. Pelo SIA, acesse Biblioteca Virtual Estácio

. 2. Digite "estatística" e clique em pesquisar. 3. Material didático recomendado para leitura:

4. Material Didático Estácio Acessar: http://leitorestacio.digitalpages.com.br/

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 50 -

ANEXO II - SOFTWARE BIOESTAT

Texto extraído da tese de doutorado em Engenharia de Ualison Rebula de Oliveira

Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o MINITAB (TRIOLA, 2005). Assim, buscando-se recursos computacionais que facilitassem o tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na Internet que oferecem programas em Javascript para cálculos on-line, a exemplo da página na Internet www.stat.ucla.edu. Após análise de pós e contras de cada aplicativo pesquisado, selecionou-se o pacote estatístico BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos não-paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível na atualidade para o cálculo do qui-quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0 e possuir mais de 20 anos de criação.

INTERFACE BIOESTAT

Baixar software: www.mamiraua.org.br

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 51 -

Anexo III - ESTATÍSTICA NO EXCEL O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo excel, bastando inserir os valores da variável de interesse.

Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos Lapponi. WWW.SUBMARINO.COM.BR 4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus - Acompanha CD-ROM com Planilhas, Modelos, Simuladores etc. para Excel. O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade, Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD-Rom, ou modificando-os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam conhecer e aprender a utilizar os recursos de Estatística disponíveis. TÓPICOS • • • • • • • • • • • • • • • •

DADOS, VARIÁVEIS E AMOSTRAS DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS MEDIDAS DE TENDÊNCIA CENTRAL MEDIDAS DE DISPERSÃO/VARIAÇÃO PROBABILIDADE CORRELAÇÃO VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS DISTRIBUIÇÕES CONTÍNUAS COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS DISTRIBUIÇÃO AMOSTRAL ESTIMAÇÃO TESTE DE HIPÓTESES TESTES DE HIPÓTESES COM DUAS AMOSTRAS ANÁLISE DA VARIÂNCIA REGRESSÃO LINEAR AJUSTE NÃO LINEAR

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 52 -

ANEXO IV – REVISÃO DE MEDIDAS DE VARIAÇÃO O termo “variação” sugere tornar vário ou diverso; alterar, diversificar; mudar; ser inconstante; não ser conforme, discrepar. Na maioria dos casos existirá variação em um conjunto de dados, independente da característica que você esteja medindo, pois nem todos os indivíduos terão o mesmo exato valor para todas as variáveis.

EXEMPLO Durante o ano letivo a Média das notas de João, Mário, Maria e José foi 7,0. Se considerarmos apenas a Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa-se que as notas são muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante: Média das notas de João 10,0 6,0

7,0

8,0

6,0 4,0

Média das notas de Mário

3,5

2,0

7,0

7,0

7,0

7,0

6,0 4,0

0,0 1º Bim

2º Bim Média 3º Bim Bimestres

Média das notas de Maria

4º Bim

1º Bim

Pequena variação a partir da Média 10,0

10,0 6,5

6,5

7,0

7,5

7,5

6,0 4,0

6,0

2º Bim Média 3º Bim Bimestres

Média das notas de José 9,5

4º Bim

Grande variação a partir da Média 8,5

7,0

8,0 Notas

Notas

7,0

2,0

0,0

8,0

Sem variação a partir da Média

10,0

Notas

Notas

8,0

Grande variação a partir da Média 9,5 9,0

6,0 4,0

4,0 2,0

2,0

0,0

0,0 1º Bim

2º Bim Média 3º Bim Bimestres

4º Bim

1º Bim

2º Bim Média 3º Bim Bimestres

4º Bim

Diante deste contexto, podemos questionar: qual o aluno é mais estável? Qual teve melhor desempenho? Qual o aluno com pior desempenho? Notadamente o aluno de melhor desempenho é o Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média. Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média. Neste capítulo vamos desenvolver maneiras específicas de realmente medirmos a variação, de modo que possamos usar números específicos em lugar de julgamento subjetivo. Outros exemplos de variações:        

Os preços das casas variam de casa para casa, de ano para ano e de estado para estado. Os preços de um produto variam de supermercado para supermercado. O tempo que você leva para chegar ao trabalho varia dia a dia. O tamanho das peças produzidas em uma empresa também varia. A renda familiar varia de família para família, de país para país e de ano para ano. Os resultados das partidas de futebol, de temporada para temporada, variam. As notas que você tira nas provas, não diferente, também variam. Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês.

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 53 -

VARIÂNCIA E DESVIO PADRÃO (amostral) São medidas que representam “um valor médio de variação” em torno da média. O desvio padrão é um modo que se usa para medir a variação entre os números em um conjunto de dados. Assim como o termo sugere, um desvio padrão é um padrão (ou seja, algo típico) de desvio (ou distância) da média. O desvio padrão é uma estatística importante, mas, frequentemente, é omitida quando a média é relatada. Sem ele, você está recebendo apenas uma parte da história sobre os dados. Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e o outro em um balde de x x x água fervendo. O homem dizia que, na média, ele estava se sentindo ótimo! Mas imagine a variação da temperatura para cada um dos pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a variedade de preços de casas com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários pode não representar o que realmente está se passando em sua empresa se os salários forem discrepantes.

Entendendo a Variância e o Desvio Padrão Desvios em torno da Média das notas de João

10,0

Desvios da média

9,5

7,0

Notas

8,0 6,0

-3,5

9,0

+ 2,5

+2,0

-1,0 6,0

4,0 2,0

3,5

x

x

Calculando a Variância e o Desvio Padrão O problema da soma dos desvios foi resolvido pelos matemáticos: basta elevar cada desvio ao quadrado antes de somá-los. Um número ao quadrado é sempre positivo, portanto a soma não se anula mais, e a média dos desvios ao quadrado pode ser calculada:

Notas (x) 3,5 6,0 9,5 9,0

Média ( ) 7,0 7,0 7,0 7,0

Desvios (x - ) -3,5 -1,0 +2,5 +2,0

n=4

-

=0

0,0 1º Bim

2º Bim

Média Bimestres

3º Bim

4º Bim

No gráfico percebemos que o desvio determina o quanto cada elemento do conjunto de dados se distancia da média 7,0. No 1º Bim. faltam -3,5 para se chegar a Média e no 2º Bim. -1,0. Já nos 3º e 4º Bim. temos +2,5 e +2,0 acima da média, respectivamente. Transpondo essas informações para uma tabela, temos:

Notas (x) 3,5 6,0 9,5 9,0 -

Média ( ) 7,0 7,0 7,0 7,0 -

Desvios (x - ) -3,5 -1,0 2,5 2,0 =0

Perceba que a soma dos desvios é igual a zero. Esta característica não é exclusiva deste exemplo. Ela sempre ocorre e prende-se ao fato de que a média é o ponto de equilíbrio em um conjunto de dados. Como os desvios indicam o grau de variação dos valores em relação à média, seria interessante poder encontrar um único número que o representasse. Algo como a média dos desvios. Mas, para fazer essa média, precisamos somar os desvios e acabamos de ver que essa soma é sempre igual a zero.

Desvios elevado ao 2 quadrado (x - ) 2 (-3,5) = 12,25 2 (-1,0) = 1 2 (2,5) = 6,25 2 (2,0) = 4

 =23,5

Variância Agora, podemos calcular a média dos quadrados dos desvios, chamada de Variância, representada por S2: 2

2

S =

23,5 = 7,8 4-1

n-1

A divisão por n−1 (grau de liberdade) aparece por fornecer um melhor resultado do que a divisão por n. Para entender melhor o grau de liberdade pesquise: distribuição “t de Student”.

Desvio padrão Mas, se elevamos os desvios ao quadrado para poder calcular sua média, não seria correto que agora fizéssemos a raiz quadrada dessa média, para desfazer a potenciação? Sim, e o valor dessa raiz é chamado Desvio padrão, representado por S:

S=

Desvio padrão →

7,8 = 2,8

Interpretação: O desvio padrão indica que a maioria das notas de João está concentrada dentro dos limites de 2,8 em torno da média 7,0. Ou seja, se concentrando entre 4,2 e 9,8 (veja abaixo).

4,2

-2,8

+2,8

9,8

7,0 O entendimento completo da interpretação do desvio padrão será estudado em “distribuição Normal”.

Equação da Variância e Desvio padrão Podemos concluir, então, o uso das equações:

Uanderson Rebula de Oliveira

Análise Estatística


Administração

- 54 -

Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo. Notas de Maria: x  x

 ( x  x)

2

S =

4

2

2

2

2

2

6,5

-0,5

+0,5

7,5

7,0

Notas de José:

4,0 9,5 8,5 6,0

2º Calcular a Variância

x  x

2

S =

 ( x  x)

3º Calcular o Desvio padrão

2

n 1

n 2

2

S2 →

S=

2

2

6 ,16

2

S = (4,0 – 7,0) + (9,5 – 7,0) + (8,5 – 7,0) + (6,0 – 7,0) = 6,16 4-1 4,5

Interpretação: O resultado indica que a maioria das notas de Maria está

S = 2,5

-2,5

+2,5

9,5

2,5 em torno da Média 7,0. Ou seja,

concentrada dentro dos limites de se concentrando entre 4,5 e 9,5.

7,0

Notas de Mário: 1º Calcular a Média

7,0 7,0 7,0 7,0

2º Calcular a Variância

 ( x  x)

x  x

2

2

2

3º Calcular o Desvio padrão

2

n 1

S =

n

4

S = 0,5

0,5 em torno da Média 7,0. Ou seja,

1º Calcular a Média

x = 7,0+7,0+7,0+7,0 = 7,0

0, 33

2

S = (6,5 – 7,0) + (6,5 – 7,0) + (7,5 – 7,0) + (7,5 – 7,0) = 0,33 4–1

concentrada dentro dos limites de se concentrando entre 6,5 e 7,5.

4

S2 →

S=

Interpretação: O resultado indica que a maioria das notas de Maria está

x = 4,0+9,5+8,5+6,5 = 7,0

3º Calcular o Desvio padrão

n 1

n

x = 6,5+6,5+7,5+7,5 = 7,0

6,5 6,5 7,5 7,5

2º Calcular a Variância

1º Calcular a Média

2

S= 2

S2 →

S=0

2

S = (7,0 – 7,0) + (7,0 – 7,0) + (7,0 – 7,0) + (7,0 – 7,0) = 0 4-1

O resultado indica que todas as notas de Mário estão dentro dos limites de na média 7,0. Portanto, sem variação.

Uanderson Rebula de Oliveira

0 em torno da Média 7,0. Ou seja, se concentrando exatamente

Análise Estatística


Administração

- 55 -

COEFICIENTE DE VARIAÇÃO - CV É a medida relativa do desvio padrão que é expressa sob a forma de porcentagem (%). Em algumas situações, podemos estar interessados em uma estatística que indique qual é o tamanho do desvio padrão em relação à média. A melhor forma de representá-la é através do coeficiente de variação por ser expressa na forma de porcentagem.

Equação do Cv: Cv =

Exemplo: Com a média 7,0 de João e Desvio padrão de 2,8, temos:

S x 100

Cv = 2,8 x 100 → 40% 7,0

x

O resultado indica que a Média 7,0 de João teve um Desvio padrão em torno de 40%.

Ou seja: Cv = Desvio padrão x 100 Média

Interpretação estatística do Cv: Cv ≤ 15% 15% < Cv < 30% Cv ≥ 30%

= pequena variação em torno da média = moderada variação em torno da média = grande variação em torno da média

Fazendo a Distribuição de Variabilidade das notas de João, Maria, José e Mário, temos: Alunos João Maria José Mário

x 7,0 7,0 7,0 7,0

S 2,8 0,5 2,5 0

Cv (%) 40% 7% 36% 0%

Cálculo do Cv (%)

→ → →

2,8

/7,0 x 100 /7,0 x 100 2,5 /7,0 x 100 0,5

-

Interpretação do Cv Grande variação Pequena variação Grande variação Nenhuma variação

VANTAGEM DO CV. O Cv é útil para compararmos a variabilidade de variáveis que têm desvios padrão diferentes e médias diferentes Exemplo: Suponha que o lote A de peças tenha média de 65 cm de comprimento com desvio padrão de 8 cm; e o lote B tenha média de 105 cm com desvio padrão de 11 cm. QUAL LOTE TEM MENOR VARIAÇÃO E É MAIS CONSISTENTE?

Lote A

Lote B

Cv = 8 x 100 = 12,3% 65

Cv = 11 x 100 = 10,47% 105

O lote B é mais consistente pois tem menor variação.

Uanderson Rebula de Oliveira

Análise Estatística


LIVROS PUBLICADOS POR Uanderson Rébula de Oliveira


QUERO COMPRAR OS LIVROS

Ver amostras dos livros

Esses ebooks estão disponíveis na livraria Saraiva por preços bem acessíveis. Além disso, você pode imprimir, desenhar, esquematizar ou usar qualquer leitor pdf, pois a maioria deles encontra-se desbloqueado. Prof. Uanderson Rébula. Doutorando em Engenharia. Professor universitário. Vivência de 21 anos em ambiente industrial. uanderson.rebula@yahoo.com.br http://lattes.cnpq.br/1039175956271626 https://br.linkedin.com/in/uandersonrebula


Prof. MSc. Uanderson Rébula de Oliveira

Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO

CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ

Sumário


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.