-2-
UANDERSON REBULA DE OLIVEIRA https://br.linkedin.com/in/uandersonrebula http://lattes.cnpq.br/1039175956271626
Doutorando em Engenharia-Universidade Estadual Paulista-UNESP Mestrado em Engenharia de Produção-Universidade Estadual Paulista-UNESP Pós-graduado em Controladoria e Finanças-Universidade Federal de Lavras-UFLA Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC Técnico em Segurança do Trabalho-ETPC Operador Siderúrgico e Industrial-ETPC Pesquisador pelo ITL/SEST/SENAT. Professor na UNIFOA no curso de Pós graduação em Engenharia de Segurança do Trabalho. Professor da Universidade Estácio de Sá - UNESA nas disciplinas de Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e Estatística para o curso de Engenharia de Produção, Análise Estatística para o curso de Administração, Ergonomia, Higiene e Segurança do Trabalho, Gestão de Segurança e Análise de Processos Industriais (Gestão Ambiental), Gestão da Qualidade: programa 5S (curso de férias). Professor na Associação Educacional Dom Bosco para os cursos de Administração e Logística. Ex-professor na Universidade Barra Mansa – UBM nos cursos de Engenharia de Produção e de Petróleo. Ex-professor Conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional). Ex-professor em escolas técnicas nas disciplinas de Estatística Aplicada, Estatística de Acidentes do Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI. Ex-consultor interno, desenvolvedor e instrutor de cursos corporativos na CSN, a níveis Estratégicos, Táticos e Operacionais. Ex-Membro do IBS–Instituto Brasileiro de Siderurgia.
EMENTA: Conceito e fases de estudo. Variáveis. População e amostra. Técnicas de amostragem. Séries estatísticas: conceitos, tabelas, distribuição de frequência e representação gráfica. Medidas de Tendência Central. Medidas de Ordenamento. Medidas de Variação. Correlação e Regressão. Distribuição Normal. Intervalos de Confiança. Teste de Hipótese. OBJETIVO: Refletir a partir da Estatística Básica sobre as ferramentas consolidadas pelo uso e pela ciência, disponíveis a todos, que auxiliam na tomada de decisão.
Resende - RJ – 2017
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
-3SUMÁRIO UNIDADE I – TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS Amostragem Aleatória Simples, 5 Amostragem Estratificada, 6 Amostragem por Conglomerado, 7 Amostragem Sistemática, 9
UNIDADE II – CORRELAÇÃO E REGRESSÃO Correlação linear simples, 11 Regressão linear simples, 14
UNIDADE III – DISTRIBUIÇÃO DE FREQUÊNCIA E O GRÁFICO DE PARETO Distribuição de frequência, 17 Gráfico de Pareto, 19
UNIDADE IV – MEDIDAS DE VARIAÇÃO E A DISTRIBUIÇÃO NORMAL Medidas de variação, 26 Variância e Desvio Padrão, 27 Coeficiente de Variação, 29 Conceitos básicos de probabilidades, 29 Distribuição Normal, 30 Probabilidades na Distribuição Normal, 31 Z‐Escore e valor de “x” na Distribuição Normal, 34
UNIDADE V – ESTATÍSTICA INFERENCIAL E OS INTERVALOS DE CONFIANÇA Estimativa pontual e intervalar, 41 Intervalos de confiança – IC, 41 Intervalos de confiança para média (amostras grandes), 41 determinação do tamanho da amostra, 43 Intervalos de confiança para média (amostras pequenas), 43 Intervalos de confiança para proporções p, 45 Determinação do tamanho da amostra para p, 45 Intervalos de confiança para o desvio padrão, 46
UNIDADE VI – ESTATÍSTICA INFERENCIAL E OS TESTES DE HIPÓTESES Conceitos introdutórios, 50 Teste de hipótese para média (amostras grandes), 51 Teste de hipótese para média (amostras pequenas), 52 Teste de hipótese para proporção, 53 Teste de hipótese para o desvio padrão, 54 Teste para duas amostras – conceitos introdutórios, 57 Teste para diferença de duas médias (dependente), 57 Teste para diferença de duas médias (independente), 59
UNIDADE VII – COMPLEMENTOS Gráficos e Tabelas, 61 Distribuição de frequências em classes, 65 Medidas de posição (média, mediana e moda), 68 Medidas de Ordenamento (Quartil, Decil e Percentil), 74 Vocabulário básico de Estatística, 76 População e amostra, 78 Estatística Descritiva e Inferencial, 80
REFERÊNCIAS, 81
-4-
UNIDADE I TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS
BAIXE O SOFTWARE BIOESTAT E USE‐O PARA COLETA DE AMOSTRAS E OUTRAS APLICAÇÕES ESTATÍSTICAS HTTP://WWW.MAMIRAUA.ORG.BR/PT‐BR/DOWNLOADS/PROGRAMAS/BIOESTAT‐VERSAO‐53/
O BioEstat é programa gratuito para estudantes de graduação e pós‐graduação, pesquisadores e professores, com 210 aplicativos estatísticos de fácil uso pelos iniciantes. Este programa contém o Manual (em formato de arquivo "pdf") que orienta o usuário com indicações simples e precisas para cada teste, exemplos práticos, gráficos de uso mais frequente, glossário vinculado à biometria e fórmulas estatísticas referentes aos aplicativos do BioEstat. A licença de uso deste programa também é gratuita, sendo permitida a instalação em vários computadores. Para outras informações, envie um e‐mail para mamiraua@mamiraua.org.br.
ONDE FAZER CURSOS E COMPRAR LIVROS?
WERKEMA CONSULTORES ‐ HTTP://WWW.WERKEMACONSULTORES.COM/ FALCONI CONSULTORES DE RESULTADO‐ HTTPS://WWW.FALCONI.COM/PT/
-5TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS
São técnicas de seleção dos elementos de uma população, de modo a se obter uma amostra representativa da população. Devem ser utilizadas para assegurar que as inferências sobre a população sejam válidas.
Amostragem Aleatória Simples – É aquela na qual todos os elementos da população tem a mesma chance de ser selecionado.
Essa técnica usa mecanismos de casualidade para escolher os elementos da população, como a tabela de números aleatórios. O método é semelhante a um sorteio.
Tabela de números aleatórios
A tabela de números aleatórios consiste em uma série de números listados em uma sequência aleatoriamente gerada. Essa tabela tem duas características que a tornam adequada: primeiro, os números estão dispostos de tal maneira que a chance de qualquer um deles aparecer em determinada sequência é igual à chance do aparecimento em qualquer outra posição; segundo, cada uma de todas as combinações de algarismos tem a mesma chance de ocorrência. O Excel dispõe da função “ALEATÓRIO” para gerar números aleatórios (veja figura). A tabela de números aleatórios abaixo foi construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso, pelo Excel, identificadas pelas linhas (1, 2, 3, 4...) e colunas (A, B, C, D ...):
Tabela de números aleatórios A B C D E F G H I J K L M N 1 9 3 3 1 2 1 6 6 3 3 9 0 7 0 2 0 7 6 8 1 4 5 0 5 8 6 6 1 4 3 6 5 1 5 3 4 4 2 3 7 9 1 4 8 4 9 7 0 2 6 7 3 2 6 7 4 9 1 6 5 5 5 6 5 1 6 4 8 3 3 1 5 3 8 6 8 3 4 8 8 3 8 0 6 4 8 2 3 5 7 3 1 2 7 5 4 7 1 3 5 2 4 1 5 8 3 6 3 1 1 7 6 9 5 3 3 5 3 5 9 4 2 0 4 7 2 7 9 3 3 3 3 3 2 10 6 8 7 0 3 9 9 9 8 6 8 2 1 5 11 7 9 1 6 5 8 1 4 3 7 9 1 2 5 12 8 1 4 6 3 8 8 4 7 1 3 6 3 7 13 8 1 7 9 3 4 3 6 9 5 9 2 1 7 14 2 8 8 4 4 0 4 3 2 2 8 1 1 0 15 3 3 7 2 0 0 2 9 5 5 6 8 2 4 16 0 2 7 8 1 7 7 6 0 4 3 4 5 8 17 1 1 0 5 9 6 6 2 7 2 2 7 1 8 18 1 9 0 4 1 1 4 3 3 1 5 6 7 0 19 6 9 7 4 5 0 1 0 6 6 2 1 5 2 20 2 7 1 2 1 6 3 1 1 7 1 2 3 4 21 9 5 5 5 2 2 0 1 3 6 9 6 5 3 22 4 2 4 9 7 3 1 8 3 4 8 3 7 1 23 5 8 3 1 1 3 8 2 5 3 8 6 2 2 24 8 4 3 2 1 3 5 7 6 7 3 3 6 1 25 1 2 8 1 0 5 4 3 8 5 1 1 8 9 26 7 7 5 7 9 2 4 5 7 8 7 1 4 8 27 7 2 8 8 8 3 8 5 5 4 4 5 9 4 28 8 7 7 1 9 6 7 6 6 5 5 9 1 6 29 1 4 8 2 2 1 9 5 2 6 6 3 4 0 30 7 6 1 9 0 5 1 4 4 4 1 0 1 6 31 1 5 8 1 0 4 3 9 2 4 5 6 6 8 32 3 2 2 2 1 1 4 5 8 0 2 4 5 8 33 6 5 4 6 5 9 5 1 0 0 1 4 2 7 34 5 0 8 7 8 1 3 5 1 4 6 1 5 5 Tabela criada pelo professor Uanderson Rébula
O 4 2 5 2 8 2 1 6 8 8 3 7 3 2 5 7 5 1 1 8 2 3 7 9 1 4 9 5 1 4 2 3 7 6
P 0 6 8 7 2 5 3 3 7 7 4 5 8 8 7 8 5 2 8 8 2 1 8 4 3 1 2 6 3 3 2 3 7 6
Q 4 7 7 7 3 3 1 3 1 4 1 2 7 1 4 3 2 2 8 1 6 1 1 7 8 6 3 1 0 7 3 0 7 0
R 4 5 2 8 8 7 8 3 8 5 6 6 5 8 0 0 7 2 2 1 3 6 1 6 7 4 1 2 5 3 1 9 8 3
S 1 6 4 6 8 1 0 4 0 5 3 2 2 1 6 3 5 4 5 7 1 4 1 5 4 9 1 2 5 7 2 3 0 5
T 3 0 7 8 7 7 5 3 6 2 1 4 2 4 7 1 9 4 2 1 4 8 3 6 5 7 1 3 6 1 8 9 3 5
U 8 5 3 4 7 6 8 6 1 6 6 8 7 5 3 2 5 9 2 1 4 2 4 6 0 5 2 2 9 0 4 8 2 0
V 1 7 7 7 4 8 8 8 5 3 3 6 6 1 2 7 0 2 2 1 4 3 4 7 4 9 7 5 1 7 5 9 7 3
W 6 7 0 8 5 2 6 4 3 4 2 3 0 8 6 8 3 2 8 3 3 3 8 2 7 4 6 7 7 4 9 6 7 6
X 5 9 6 1 0 9 0 5 4 1 5 2 6 1 3 5 7 1 1 6 1 1 8 6 0 1 3 5 8 1 1 9 2 5
Y 8 6 2 5 4 5 6 5 0 1 1 1 1 8 7 2 0 9 2 2 6 4 6 5 8 4 5 6 8 6 7 8 8 4
Z 8 3 2 7 5 3 6 8 6 2 9 4 8 3 6 3 3 7 3 1 7 7 4 7 3 4 1 9 8 8 4 8 7 1
a 9 2 1 1 1 4 9 8 3 2 5 8 1 3 7 2 1 1 8 1 0 3 2 0 8 3 4 5 2 9 7 4 5 4
b 8 6 3 2 8 3 5 1 2 1 7 3 2 4 2 5 5 5 1 7 5 8 3 8 9 2 0 0 7 9 6 5 8 1
c 6 3 5 6 7 7 5 9 8 2 7 1 1 5 7 7 4 9 3 9 5 6 1 2 6 2 6 3 7 7 7 9 1 4
d 5 4 0 6 2 0 5 2 3 9 5 7 4 6 2 5 2 1 5 2 1 3 8 6 2 5 2 1 9 9 1 8 3 0
e 0 5 8 6 3 3 3 5 3 4 6 0 8 6 2 7 9 1 7 2 0 1 6 4 3 8 7 7 7 6 6 1 8 6
f 6 9 9 3 2 9 5 7 0 0 6 8 5 8 7 4 7 5 6 5 7 8 1 9 7 0 7 1 5 2 1 3 7 9
g 3 8 4 5 9 7 8 8 7 5 8 1 2 1 6 3 4 8 7 3 3 0 8 1 1 2 7 1 0 7 8 3 6 5
h 3 6 7 6 6 0 5 7 2 8 4 9 7 4 4 5 4 9 8 2 1 2 4 4 4 3 7 5 3 6 0 5 4 2
i 1 5 1 0 4 1 6 7 7 7 6 4 3 7 1 2 2 7 1 2 2 8 9 7 6 4 7 5 6 3 4 8 0 2
j 2 2 6 8 7 5 7 5 2 0 5 1 3 4 6 9 6 2 6 2 1 1 1 7 2 5 7 2 2 7 6 9 0 0
k 4 1 4 2 7 7 1 8 4 6 7 2 8 3 1 4 0 2 7 7 5 0 5 3 9 4 0 6 4 0 2 0 2 5
l 8 1 4 1 9 2 2 7 2 8 1 3 5 3 1 6 5 2 1 6 3 8 6 4 4 2 4 6 4 1 9 6 6 5
-6Como usar a tabela de números aleatórios
1º Numerar todos os elementos da população N;
2º Determinar as combinações dos algarismos. Exemplo: se o último número da população for 80, devem ser lidos números de dois algarismos; se o último for 456, devem ser lidos números de três algarismos, e assim por diante;
3º Escolher um ponto de partida arbitrário da tabela. A leitura pode ser feita horizontalmente →← (da direita para a esquerda ou vice‐versa), verticalmente ↓↑ (de cima para baixo ou vice‐versa), diagonalmente ↗↙↖↘ (no sentido ascendente ou descendente) ou formando uma letra. A opção, porém, deve ser feita antes de iniciado o processo;
4º Descartar os números maiores que o tamanho da população e/ou numeral repetido;
5º Usar os números escolhidos para identificar os elementos da população.
EXEMPLO. Uma empresa pecuária possui uma população de novilhos de tamanho N = 80 e precisa retirar amostras de tamanho n = 12 (15% da população) para fazer exame de uma doença. Utilize o método de amostragem aleatória simples, considerando a tabela, a partir da 4ª linha, coluna D, sentido horizontal, da esquerda para direita (→).
SOLUÇÃO. Como a população N=80 tem dois algarismos, combinamos dois algarismos na tabela, descartando os números repetidos e os números que não pertencem a população (Ex.: 81, 95,...). Este procedimento é repetido até a amostra de tamanho n=12 ser escolhida. Então:
1 2 3
A 9 0 6 4 9
B 3 7 5
C 3 6 1
D E F 1 2 1 8 1 4 5 3 4
G 6 5 4
H 6 0 2
I 3 5 3
J 3 8 7
K 9 6 9
L 0 6 1
M 7 1 4
N 0 4 8
O 4 2 5
P 0 6 8
Q 4 7 7
R 4 5 2
S 1 6 4
T 3 0 7
U 8 5 3
V 1 7 7
W 6 7 0
X 5 9 6
Y 8 6 2
Z 8 3 2
a 9 2 1
b 8 6 3
c 6 3 5
d 5 4 0
e 0 5 8
f 6 9 9
g 3 8 4
h 3 6 7
i 1 5 1
j 2 2 6
k 4 1 4
l 8 1 4
7 0 2 6 7 3 2 6 7 4 9 1 6 2 7 7 8 6 8 4 7
8 1 5 7 1 2 6 6 6 3 5 6 0 8 2 1
5 5 5 6 5 1 6 4 8 3 3 1 5 3 8 8 2 3 8 8 7 7 4
5 0 4 5 1 8 7 2 3 2 9 6 4 7 7 9
6 8 3 4 8 8 3 8 0 6 4 8 2 3 5 2 5 3 7 1 7 6 8
2 9 5 3 4 3 7 0 3 9 7 0 1 5 7 2
Amostras escolhidas 26 73 74 62 77 78 15 71 n =
66
35
60
56
Descartadas por repetição:
Descartadas por não pertencer à população:
26 26 15
91 86 84 82
Amostragem Estratificada – É aquela na qual dividimos a população em subgrupos (estratos) de idênticas características e retiramos amostras aleatórias simples dos subgrupos.
Às vezes, a população é heterogênea (ex.: sexo masculino e feminino; peça A, B e C) e a amostra aleatória simples não apresentaria esta heterogeneidade. Seria, então, necessário homogeneizar as amostras em grupos, estratos. Neste caso recorremos à amostragem aleatória estratificada. “Estratificar” sugere “formar‐se em camadas”.
Exemplo. A estratificação mais simples que encontramos na população do rebanho de tamanho N=80 é a divisão entre novilhos e novilhas. Supondo que haja 35 novilhos e 45 novilhas, teremos a seguinte formação dos estratos:
População (80)
Estrato 1
Estrato 2
Novilhos (35)
Novilhas (45)
São, portanto, dois estratos (novilhos e novilhas). Como queremos uma amostra de tamanho n=12 (15% da população), por estrato, temos:
Rebanho Novilho (estrato 1) Novilha (estrato 2) TOTAL
População 35 45 80
15% 35*0,15 = 5,25 45*0,15= 6,75 80*0,15 = 12
Amostra 5 7 12
Número de amostras estratificadas
-7O próximo passo é extrair as amostras dentro de cada estrato. Então, numeramos o rebanho de 01 a 80, sendo que de 01 a 35 correspondem novilhos e de 36 a 80, as novilhas. Tomando na tabela de números aleatórios, a partir da 4ª linha, coluna D, sentido horizontal, da esquerda para direita (→), obtemos os seguintes números:
1 2 3
A 9 0 6 4 9
B 3 7 5
C 3 6 1
D E F 1 2 1 8 1 4 5 3 4
G 6 5 4
H 6 0 2
I 3 5 3
J 3 8 7
K 9 6 9
L 0 6 1
M 7 1 4
N 0 4 8
O 4 2 5
P 0 6 8
Q 4 7 7
R 4 5 2
S 1 6 4
T 3 0 7
U 8 5 3
V 1 7 7
W 6 7 0
X 5 9 6
Y 8 6 2
Z 8 3 2
a 9 2 1
b 8 6 3
c 6 3 5
d 5 4 0
e 0 5 8
f 6 9 9
g 3 8 4
h 3 6 7
i 1 5 1
j 2 2 6
k 4 1 4
l 8 1 4
7 0 2 6 7 3 2 6 7 4 9 1 6 2 7 7 8 6 8 4 7
8 1 5 7 1 2 6 6 6 3 5 6 0 8 2 1
5 5 5 6 5 1 6 4 8 3 3 1 5 3 8 8 2 3 8 8 7 7 4
5 0 4 5 1 8 7 2 3 2 9 6 4 7 7 9
6 8 3 4 8 8 3 8 0 6 4 8 2 3 5 2 5 3 7 1 7 6 8
2 9 5 3 4 3 7 0 3 9 7 0 1 5 7 2
Temos, então: 1 a 35 → Novilhos n =5 36 a 80 → Novilhas n =7 Descartados
26 73
15 74
35 62
31 77
23 78
71
66
Notas importantes sobre este tipo de amostragem
Como é provável que a variável em estudo apresente, de estrato para estrato, um comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo, convém que a amostragem seja feita por estratos. Portanto, a amostragem estratificada é, em geral, usada para reduzir a variação nos resultados. A amostragem estratificada é mais eficiente do que a amostragem aleatória simples, uma vez que fica assegurada a representatividade de elementos ao longo de toda a extensão da população. A homogeneidade de itens dentro de cada estrato proporciona maior precisão. Da mesma maneira, em um sistema produtivo, podemos estratificar as amostras em, por exemplo, peça A, peça B, peça C e assim por diante.
Amostragem por Conglomerado- É aquela em que dividimos a população em pequenos grupos (conglomerados), e retiramos amostras aleatórias simples dos conglomerados.
Normalmente usado para amostras grandes. É um método muito usado por motivos de ordem econômica e prática. Imagine uma população de 8.000 na qual se queira uma amostra de 400 elementos. É inviável usar os outros métodos pois implicaria em muito trabalho enumerar e escolher um a um.
Exemplo. Na população de 8.000 novilhos, divida em 10 conglomerados e extraia uma amostra de tamanho 2.400, Partindo da 1ª linha, coluna A, sentido horizontal e da esquerda para direita (→) da tabela aleatória.
8000
1º passo. Determine o número de elementos para cada conglomerado:
/ 10 = 800 novilhos por conglomerado
População (8.000)
800 novilhos para cada conglomerado
Conglomerado 1
Conglomerado 2
Conglomerado 3
Conglomerado 4
Conglomerado 5
Conglomerado 6
Conglomerado 7
Conglomerado 8
Conglomerado 9
Conglomerado 10
2º passo: Determine o número de algarismos que serão usados na tabela aleatória: Como são 10 conglomerados, a contagem pela tabela aleatória será 1 ‐ 10
3º passo: Determinar o número de conglomerados amostrados Como queremos 2.400 novilhos, então serão 3 conglomerados , pois 800 + 800 + 800 = 2.400 novilhos
4º passo. Usar a tabela e selecionar as amostras. Então: Partindo da 1ª linha, coluna A, sentido horizontal e da esquerda para direita (→) da tabela aleatória, temos, então:
Conglomerados selecionados: 06 07 02 Agora, é só coletar todos os elementos desses conglomerados selecionados e estudar todos os itens. Uma amostra por conglomerado é uma amostra aleatória simples na qual cada unidade de amostragem é um grupo de elementos. Uma das principais aplicações da amostragem por conglomerados é a amostragem por áreas geográficas,
-8como cidades, municípios, setores de uma empresa, quarteirões de cidades, domicílios, território de vendas etc. Segundo Levine et al (2008, p. 222) e Anderson et al (2009, p.263) a amostragem por conglomerados têm as seguintes características:
Todos os elementos contidos em cada conglomerado amostrado formam a amostra; Cada conglomerado é uma versão representativa em pequena escala da população inteira; Tende a produzir melhores resultados quando os elementos neles contidos não são similares; De um modo geral, é mais eficaz em termos de custo do que a amostragem aleatória simples, particularmente se a população estiver dispersa ao longo de uma extensa área geográfica. Entretanto, a amostragem por conglomerado geralmente demanda um maior tamanho de amostra para que sejam produzidos resultados tão precisos quanto aqueles que seriam obtidos da amostragem aleatória simples ou estratificada.
Segundo Triola (2008, p. 23) outro exemplo de amostra por conglomerado pode ser encontrado nas pesquisas eleitorais, onde selecionamos aleatoriamente 30 zonas eleitorais dentre um grande número de zonas e, em seguida, entrevistamos todos os eleitores daquelas seções (zonas selecionadas). Isso é muito mais rápido e muito menos dispendioso do que selecionar uma pessoa de cada uma das zonas na área populacional. ATENÇÃO!
É fácil confundir amostragem estratificada com a amostragem por conglomerado, porque ambas envolvem a formação de grupos. Porém, a amostragem por conglomerado usa todos os elementos de um grupo selecionado, enquanto a amostragem estratificada usa amostras de elementos de todos os estratos.
Figura. Amostragem por Conglomerados em quarteirões de um bairro.
-9-
Amostragem Sistemática - É a técnica de amostragem em que retiramos os elementos da população periodicamente, definida pelo pesquisador.
Utilizamos este tipo de amostragem quando os elementos de uma população se encontram ordenados, por exemplo, a coleta de amostras de um determinado produto em uma linha de produção.
Amostras
Coleta de Amostras
Nestes casos, a seleção dos elementos que constituirão a amostra pode ser feita por um sistema imposto pelo pesquisador. Assim, no caso de uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Neste caso, estaríamos fixando o tamanho amostral de 10% da população. Uma amostragem é sistemática quando a retirada dos elementos da população é feita periodicamente, sendo o intervalo de seleção calculado, por meio da divisão do tamanho da população pelo tamanho da amostra a ser selecionada, ou seja: N / n EXEMPLO. Deseja-se retirar uma amostra de n = 10 unidades de peças de uma população de tamanho N = 800. O 800 intervalo de seleção é, então, /10 = 80. Desse modo, escolhemos um número de 1 a 80, o qual indicaria o primeiro elemento sorteado para amostra; os demais seriam periodicamente considerados de 80 em 80. Partindo da 1ª linha, coluna A, sentido horizontal e da esquerda para direita (→) da tabela aleatória: o primeiro elemento será 31 (tabela aleatória) e os demais obtidos por progressão aritmética: 111, 191, 271, 351, 431, 511, 591, 671 e 751.
O ESQUEMA ABAIXO PERMITE UM MELHOR ENTENDIMENTO:
População = 800 Amostra = 10 Amostra
1
2
3
4
800 = 80 10 5
6
1 ‐ 80 7
8
9
10
+80 +80 +80 +80 +80 +80 +80 +80 +80 Nº da peça
31
111
191
271
351
431
511
591
671
751
Outros métodos de amostragens (não probabilísticos) Amostragem por julgamento – A pessoa que conhece mais profundamente o tema do estudo escolhe os elementos que julga serem mais representativos da população. Por exemplo, um repórter pode tomar como amostra dois ou três senadores, julgando que eles refletem a opinião geral de todos os senadores. A qualidade dos resultados depende do julgamento da pessoa que a seleciona. Amostragem por conveniência – a amostra é identificada primeiramente por conveniência (cômodo, útil, favorável). Como exemplo estudantes de uma universidade voluntários para compor uma amostra de uma determinada pesquisa escolar.
- 10 -
UNIDADE II CORRELAÇÃO E REGRESSÃO
Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo “Existe relação entre o número de horas de estudo e as notas obtidas?”. Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz‐se que as mesmas estão correlacionadas.
- 11 CORRELAÇÃO LINEAR SIMPLES INTRODUÇÃO
Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados (x,y), para resolver questões do tipo:
Variável x Existe relação entre o número de horas de estudo... Quanto maior for a produção... Existe relação entre o tabagismo... Quanto maior a idade de uma casa... Existe relação entre o número de horas de treino... Existe relação entre o nível de pressão arterial...
Variável y ...e as notas obtidas? ...maior será o custo total? ...e a incidência de câncer? ...menor será seu preço de venda? ...e os gols obtidos em uma partida de futebol? ...com a idade das pessoas?
Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de relação entre duas variáveis. Se as variáveis variam juntas, diz‐se que as mesmas estão correlacionadas.
Correlação linear simples é uma técnica usada para analisar a relação entre duas variáveis. DIAGRAMA DE DISPERSÃO
EXEMPLO 1. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão
Número de horas de estudo versus notas obtidas
A B C D E F G H
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5
H o r as estud ad as ver sus Notas o b tid as 10 9
Ponto de interseção (Aluno D)
8 Y (Notas obti das )
Aluno
X
7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
8
9
x (Horas de es tudo)
FONTE: dados fictícios
Representando os pares ordenados (x,y), obtemos diversos pontos grafados que denominamos diagrama de dispersão. Para construí‐lo, basta pontuar a interseção de cada eixo x,y. Por exemplo, o aluno D estudou 4h (eixo x) e obteve a nota 5,0 (eixo y). Observe no diagrama uma linha vermelha pontilhada e o ponto de interseção. Esse diagrama nos fornece uma idéia grosseira, porém útil, da correlação existente. Ao observar o diagrama como um todo, podemos afirmar que existe uma correlação entre as variáveis x,y pois, quando x cresce, y também tende a crescer.
CORRELAÇÃO LINEAR
H o r as estud ad as ver sus No tas o b tid as 10 9 8 Y (Notas obti das )
Os pontos grafados, vistos em conjunto, formam uma elipse (trajetória, distribuição dos pontos) em diagonal. Podemos imaginar que, quanto mais fina for a elipse, mais ela se aproximará de uma reta. Dizemos então, que a correlação de forma elíptica tem como “imagem” uma reta, sendo, por isso, denominada correlação linear.
7 6 5 4
Reta imaginária
3 2 1 0 0
1
2
3
4
5
x (Horas de es tudo)
6
7
8
9
- 12 Assim, uma correlação é: Uma direção para cima sugere que se: ‐ x aumenta, ‐ y tende a aumentar.
Uma direção para baixo sugere que se: ‐ x aumenta, ‐ y tende a diminuir.
EXEMPLO 2. Consideremos na tabela abaixo os meses de Jan a Set, o aumento mensal do preço das refeições (x) e a média do número de clientes ao mês (y). Verifique se existe correlação por meio do diagrama de dispersão. Diagrama de Dispersão
Aumento do preço da refeição versus média de clientes por mês
Jan Fev Mar Abr Jun Jul Ago Set
Y
180
(preço refeição)
(média clientes)
160
R$ 5,90 R$ 8,50 R$ 10,90 R$ 13,20 R$ 15,90 R$ 18,50 R$ 21,90 R$ 24,90
154 139 133 128 115 99 80 67
Y (médi a de c l i entes p/di a)
Mês
Aumento do p r eço da r efeição ver su s média clientes p/dia
X
140 120 100 80 60 40 20 0 0,00
5,00
10,00
15,00
20,00
25,00
30,00
x ( P reç o ref ei ç ão)
FONTE: dados fictícios
COEFICIENTE DE CORRELAÇÃO DE PEARSON Interpretar a correlação usando um diagrama de dispersão pode ser subjetivo (pessoal). Uma maneira mais precisa de se medir o tipo e o grau de uma correlação linear entre duas variáveis é calcular o coeficiente de correlação. Coeficiente de correlação é uma medida do grau de relação entre duas variáveis. Os estatísticos criaram a equação ao lado para obter o grau de correlação. Na verdade é chamado de coeficiente de Pearson, em homenagem ao estatístico inglês Karl Pearson (1857‐1936).
Onde: r = coeficiente de correlação e n = tamanho da amostra
- 13 EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule o coeficiente de correlação r. Cálculo do r: Número de horas de estudo versus notas obtidas
Aluno A B C D E F G H
X
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h =39,5
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5 =48,5
X2
Y2
XY
64 81 72 4 9 6 9 16 12 16 25 20 20,25 36 27 36 49 42 25 49 35 49 56,25 52,5 =223,25 =321,25 =266,5
Interpretação: O coeficiente de correlação r = 0,975 indica que o grau de relação entre as duas variáveis é “Muito forte”, além de ser “Positiva” (pois x aumenta, y também aumenta). Então, podemos afirmar que, conforme aumentam as horas de estudo, as notas obtidas também aumentam. Veja mais detalhes abaixo: O grau de relação r pode variar de -1 até +1, conforme ilustrado abaixo: Perfeita Nula Perfeita
‐1 0 +1 ‐0,9 ‐0,6 ‐0,3 0,3 0,6 0,9 Forte Fraca Muito Fraca Muito Fraca Fraca Forte Muito Muito forte forte Correlação linear NEGATIVA Correlação linear POSITIVA ( x aumenta, y diminui ) ( x aumenta, y aumenta ) r = 0 y y r = 0,824 r = ‐ 0,813 x x
r=0,975 Positiva e “Muito forte”
Notas:
Correlação e causalidade. O fato de duas variáveis serem fortemente correlacionadas não implica uma relação de causa e efeito entre elas. Um estudo mais profundo é usualmente necessário para determinar se há uma relação causal entre as variáveis. As seguintes questões devem ser consideradas ao pesquisador: ‐ Há uma relação direta de causa e efeito entre as variáveis? ‐ É possível que a relação entre duas variáveis seja uma coincidência? Mais informações em Larson, 2010, capítulo 9.
- 14 REGRESSÃO LINEAR SIMPLES INTRODUÇÃO Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é determinar a equação da linha que melhor modela os pontos grafados. Essa linha é chamada de linha de regressão (ou linha de melhor ajuste). Portanto, a análise de regressão linear simples tem por objetivo obter a equação matemática do ajuste da reta que representa o melhor relacionamento numérico linear entre as duas variáveis em estudo. A Regressão Linear determina o ajuste da reta, chamada de “Linha de Regressão”
H o r as estud ad as ver sus No tas o b tid as 10 9 Y (Notas obti das )
8 7 6 5 4 3 2 1 0
0 1 2 3 4 5 6 7 8 9 x (Horas de es tudo) Ao se construir um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos grafados. Para tanto, devemos calcular o “ajustamento da reta aos pontos”. Eis alguns exemplos de diagramas de dispersão com o ajustamento da reta aos pontos:
AJUSTAMENTO DA RETA AOS PONTOS GRAFADOS Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguintes equações: 1º ‐ Calcular o Coeficiente angular a:
2º ‐ Calcular o Coeficiente linear b:
(dá a inclinação da reta)
(ordena o ponto em que a reta corta o eixo)
3º ‐ Calcular o ajustamento da reta :
b = ‐ a
Onde: a = Coeficiente angular n = tamanho da amostra
Onde: b = Coeficiente linear = Média de y a = Coeficiente angular
= Média de x
= aX + b Onde: = Ajustamento da reta a = Coeficiente angular X = É um valor arbitrário. (Ex.: nº 5) b = Coeficiente linear
- 15 EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de horas de estudo (x) e as notas obtidas (y), calcule a reta ajustada nos pontos grafados. Número de horas de estudo versus notas obtidas
Aluno A B C D E F G H
X
Y
(horas de estudo)
(notas obtidas)
8h 2h 3h 4h 4,5h 6h 5h 7h
9,0 3,0 4,0 5,0 6,0 7,0 7,0 7,5
=39,5
=48,5
X2
XY
64 4 9 16 20,25 36 25 49
72 6 12 20 27 42 35 52,5
1º ‐ Calcular o Coeficiente angular a:
a = 266,5 ‐ (39,5) . (48,5) 8 223,25 ‐ (39,5)2
2º ‐ Calcular o Coeficiente linear b:
3º ‐ Calcular o ajustamento da reta :
b = ‐ a
8
=223,25 =266,5 a = 0,958
Calculando as Médias e , temos: = 48,5 = 6,063 = 39,5 = 4,937 8 8 Então: b = 6,063 – 0,958 x 4,937 b = 1,33
= aX + b = 0,958 . 5 + 1,33 = 6,12 Nota: 5 é um valor arbitrário.
Para traçar a reta no diagrama de dispersão, basta determinar os pontos b, e o arbitrário:
Note que os pontos grafados estão muito próximos da reta. Isso significa que existe uma correlação muito forte entre as duas variáveis em estudo
- 16 -
UNIDADE III DISTRIBUIÇÃO DE FREQUÊNCIA E O GRÁFICO DE PARETO
Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá‐los e resumi‐los em uma tabela, chamada Distribuição de frequência.
- 17 DISTRIBUIÇÃO DE FREQUÊNCIA Frequência absoluta e Histograma
Ao se trabalhar com grandes conjuntos de dados, em geral é útil organizá-los e resumi-los em uma tabela, chamada Distribuição de frequência.
Na distribuição de frequência listamos todos os valores coletados, um em cada linha, marcam‐se as vezes em que eles aparecem, incluindo as repetições, e conta‐se a quantidade de ocorrências de cada valor. Por este motivo, tabelas que apresentam valores e suas ocorrências denominam‐se distribuição de freqüências. O termo “freqüência” indica o número de vezes que um dado aparece numa observação estatística.
EXEMPLO
Um professor organizou os resultados obtidos em uma prova com 25 alunos da seguinte forma: Notas dos 25 alunos Comentário
4,0 4,0 4,0 4,0 4,0
5,0 5,0 5,0 6,0 6,0
7,0 7,0 7,0 8,0 8,0
9,0 9,0 9,0 9,0 9,0
9,0 9,0 9,0 9,0 9,0
Agora ele pode fazer uma representação gráfica para analisar o desempenho da turma. Em primeiro lugar, o professor pode fazer uma tabulação dos dados, ou seja, organizá‐los de modo que a consulta a eles seja simplificada. Então, faremos a distribuição de freqüência destas notas, por meio da contagem de dados.
Distribuição de freqüência Comentário
Nota
Freqüência, f
4,0 5,0 6,0 7,0 8,0 9,0
5 3 2 3 2 10 f=25
Esta forma de organizar dados é conhecida como distribuição de frequência, e o número de vezes que um dado aparece é chamado de frequência absoluta, representado por f. Exemplos:
(nº de alunos)
A frequência absoluta da nota 4,0 é 5. A freqüência absoluta da nota 9,0 é 10.
O símbolo grego “sigma” significa “somatório”, muito usado em Estatística. Portanto, f=25 significa a soma de 5+3+2+3+2+10. Representamos a freqüência por um gráfico, chamado Histograma.
HISTOGRAMA Comentário Quando os dados numéricos são organizados, eles geralmente são
Número de alunos
Desempenho dos alunos na prova 12
10
10 8 6
ordenados do menor para o maior, divididos em grupos de tamanho razoável e, depois, são colocados em gráficos para que se examine sua forma, ou distribuição (no exemplo: 4,0 – 5,0 – 6,0 – 7,0 – 8,0 – 9,0). Este gráfico é chamado de Histograma.
Um histograma é um gráfico de colunas juntas. Em um histograma não existem espaços entre as colunas adjacentes, como ocorre em um gráfico de colunas. No exemplo, a escala horizontal (→) representa as notas e a escala vertical (↑) as freqüências.
5 3
4 2
2
3
2
0
4,0
5,0
6,0 7,0 Nota
8,0
9,0
O histograma ao lado indica que cinco alunos tiraram a nota 4,0; três alunos tiraram a nota 5,0; dois alunos tiraram a nota 6,0; três alunos tiraram a nota 7,0; dois alunos tiraram 8,0 e dez alunos tiraram 9,0.
ESTA FREQUÊNCIA QUE ACABAMOS DE ESTUDAR É DENOMINADA FREQUENCIA ABSOLUTA (f), QUE É SIMPLESMENTE A CONTAGEM DOS DADOS.
Em Estatística não trabalhamos somente com frequência absoluta (f), mas também com outros tipos de freqüências, que são: freqüência relativa (fr), frequência absoluta acumulada (Fa) e frequência relativa acumulada (FRa).
Estudaremos agora cada uma delas.
- 18 Frequência Relativa fr (%)
Conceito. Representado por fr(%), significa a relação existente entre a frequência absoluta f e a soma das freqüências f. É a porcentagem (%) do número de vezes que cada dado aparece em relação ao total.
EXEMPLO 5
/25 * 100 = 20%.
freqüência relativa fr (%) Comentários aos cálculos f f Nota fr(%) A frequência relativa fr(%) é obtida por /f * 100, conforme abaixo:
4,0 5,0 6,0 7,0 8,0 9,0
5 20% 3 12% 2 8% 3 12% 2 8% 10 40% f=25 100%
5
A fr(%) da nota 4,0 é /25 * 100 = 20%. 3 A fr(%) da nota 5,0 é /25 * 100 = 12% 2 A fr(%) da nota 6,0 é /25 * 100 = 8% 3 A fr(%) da nota 7,0 é /25 * 100 = 12% 2 A fr(%) da nota 8,0 é /25 * 100 = 8% 10 A fr(%) da nota 9,0 é /25 * 100 = 40%.
Frequência Absoluta Acumulada Fa
Conceito. Representado por Fa, significa a soma das freqüências absolutas até o elemento analisado.
EXEMPLO Fa2=5+3 = 8 frequência absoluta acumulada (Fa) Comentários aos cálculos
Nota 4,0 5,0 6,0 7,0 8,0 9,0
f
fr(%) 5 20% 3 12% 2 8% 3 12% 2 8% 10 40% f=25 100%
Fa 5 8 10 13 15 25 ‐
A frequência absoluta acumulada Fa é obtida conforme abaixo: A Fa da nota 4,0 é 5 (sempre repete a primeira). A Fa das notas 4,0 e 5,0 é 5+3=8. A Fa das notas 4,0, 5,0 e 6,0 é 5+3+2=10. A Fa das notas 4,0, 5,0, 6,0 e 7,0 é 5+3+2+3=13. A Fa das notas 4,0, 5,0, 6,0, 7,0 e 8,0 é 5+3+2+3+2=15. A Fa das notas 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 5+3+2+3+2+10=25
Frequência Relativa Acumulada FRa (%)
Conceito. Representado por FRa (%), significa a soma das freqüências relativas fr(%) até o elemento analisado.
EXEMPLO 20% + 12% = 32% frequência relativa acumulada (FRa) Comentários aos cálculos
Nota 4,0 5,0 6,0 7,0 8,0 9,0
f fr(%) 5 20% 3 12% 2 8% 3 12% 2 8% 10 40% f=25 100%
Fa 5 8 10 13 15 25 ‐
FRa(%) 20% 32% 40% 52% 60% 100% ‐
A frequência relativa acumulada FRa(%) é obtida conforme abaixo: A FRa(%) de 4,0 é 20% (sempre repete a primeira). A FRa(%) de 4,0 e 5,0 é 20+12 = 32% A FRa(%) de 4,0, 5,0 e 6,0 é 20+12+8 = 40% A FRa(%) de 4,0, 5,0, 6,0 e 7,0 é 20+12+8+12 = 52% A FRa(%) de 4,0, 5,0, 6,0, 7,0 e 8,0 é 20+12+8+12+8 = 60% A FRa(%) de 4,0, 5,0, 6,0, 7,0, 8,0 e 9,0 é 20+12+8+12+8+40=100%
NOTA IMPORTANTE SOBRE DISTRIBUIÇÃO DE FREQUÊNCIA: Nota
f
f=25
fr(%) 100%
Fa 25 ‐
FRa(%) 100% ‐
Para saber se o desenvolvimento da distribuição de freqüência por completo está correto, os valores ao lado, em vermelho, deverão coincidir.
- 19 GRÁFICO DE PARETO
É um gráfico de colunas ordenadas por ordem decrescente de importância, juntamente com um gráfico de linhas com as porcentagens acumuladas. Serve para definir quais os problemas vitais a serem atacados prioritariamente.
É que um gráfico organizado. Dispõe a informação de modo a tornar evidente e visual a priorização de problemas.
Princípio de Pareto ou lei oitenta / vinte:
De uma forma empírica, 80% dos problemas (problemas vitais) estão em 20% das causas. Quando diante de um problema, deseja‐se saber qual a prioridade. Para comparar problemas em tempos diferentes e evidenciar resultados de melhoria.
EXEMPLO DE GRÁFICO DE PARETO
Análise gráfica dos ACIDENTES DE TRABALHO DE UMA EMPRESA. ESTUDO: PARTE DO CORPO MAIS ATINGIDA. Com base no gráfico podemos perceber que a empresa construiu um histograma na ordem decrescente (da maior frequência para a menor), juntamente com um gráfico em linhas com as porcentagens acumuladas. Através de uma análise rápida, concluímos que a maior parte do problema da empresa, em relação à parte do corpo mais atingida, está nas mãos e braços, o que corresponde a 70 acidentes, de um total de 96. Isto corresponde a 73% do total. Atacando essas duas causas, certamente a empresa terá uma redução significativa no número de acidentes. 100
95%
80
99%
100% 100%
80% 73%
Problemas vitais
60%
44 46%
30
Problemas triviais
26
20
40%
20%
12
10
5
4
CABEÇA
OMBROS
2
2
1
PERNAS
PÉS
OUTROS
0
Porcentagem acumulada
85%
60
40
97%
91%
70
50
120%
Acidente do Trabalho - parte do corpo atingida
90
Frequência
0% MÃOS
BRAÇOS
OLHOS
(Problema/causa) Local da lesão
Problemas vitais e triviais O princípio de Pareto estabelece que os problemas relacionados à qualidade (percentual de itens defeituosos, número de reclamações de clientes, modos de falhas de máquinas, perdas de produção, gastos com reparos de produtos dentro do prazo de garantia, ocorrências de acidentes de trabalho, atrasos na entrega de produtos, entre outros), os quais se traduzem sob a forma de perdas, podem ser classificados em duas categorias: os “poucos vitais” e os “muitos triviais”.
poucos vitais muitos triviais
Representam um pequeno número de problemas, mas que no entanto resultam em grandes perdas para a empresa. (Veja o gráfico acima) São uma extensa lista de problemas, mas que apesar de seu grande número, convertem‐se em perdas pouco significativas. (perdas pouco sérias) (veja o gráfico acima)
Em outras palavras, o princípio de Pareto estabelece que se forem identificados, por exemplo, cinquenta problemas relacionados à qualidade, a solução de apenas cinco ou seis destes problemas já poderá representar uma redução de 80 ou 90% das perdas que a empresa vem sofrendo devido à ocorrência de todos os problemas existentes. O princípio de Pareto também estabelece que um problema pode ser atribuído a um pequeno número de causas. Logo, se forem identificadas as poucas causas vitais dos poucos problemas vitais enfrentados pela empresa, será possível eliminar quase todas as perdas por meio de um pequeno número de ações. Ou seja, em um primeiro momento devemos concentrar nossa atenção sobre os poucos vitais, deixando de lado os muitos triviais, para que os problemas possam ser resolvidos da forma mais eficiente possível.
Breve histórico O princípio de Pareto foi inicialmente estabelecido por J. M. Juran, que adaptou aos problemas da qualidade a teoria para modelar a distribuição de renda desenvolvida pelo sociólogo e economista italiano Vilfredo Pareto (1843—1923). Pareto mostrou, em 1897, que a distribuição de renda é muito desigual, com a maior parte da riqueza pertencendo a muito poucas pessoas. Juran foi o primeiro a notar que esta mesma idéia se aplicava aos problemas da qualidade — a distribuição dos problemas e de suas causas é desigual e portanto as melhorias mais significativas poderão ser obtidas se nossa atenção for concentrada, primeiramente, na direção dos poucos problemas vitais e logo a seguir na direção das poucas causas vitais destes problemas.
- 20 CONSTRUINDO GRÁFICO DE PARETO. 1. Colete os dados por meio de uma Folha de Verificação. Vamos considerar novamente a situação onde uma indústria fabricante de lentes procurava resolver o seguinte problema: “aumento do número de lentes defeituosas produzidas pela empresa a partir de fevereiro de 1995”. A empresa classificou uma amostra de lentes fabricadas durante uma semana de produção de acordo com os tipos de defeitos detectados, tendo obtido os resultados apresentados (destacado) na figura abaixo.
Resultados da coleta de dados
2. Com base na Folha de Verificação, organize os dados por meio de uma Distribuição de Frequência. Agora, organize os dados por meio de uma distribuição de frequências, demonstrando a frequência f (ordenada, da maior frequência para a menor), a Frequência acumulada Fa, a Frequência Relativa fr(%), e a Frequência Relativa acumulada FRa(%). Veja abaixo a distribuição de frequência.
55+41=96
55/127=43,3 43,3+32,3=75,6
Distribuição de frequência ordenada (da maior Quantidade de defeitos para a menor)
3. Com base na Distribuição de Frequência, construa o Gráfico de Pareto. Basta elaborar um histograma com as frequências f ordenadas (da maior quantidade de defeitos para menor). Logo após, construa um gráfico em linhas das porcentagens acumuladas FRa(%). 97,6% 100% 93,7% 85% 75,6% 43,3% 55 41 12 11 5 3
Tipo de defeito
- 21 4. Análise do Gráfico de Pareto. Observando o gráfico dos defeitos das lentes, foi imediato para a indústria fabricante de lentes perceber que os dois tipos de defeitos mais frequentes, “revestinento inadequado” e “trinca”, representavam 75,6% dos defeitos detectados nas lentes produzidas pela empresa. Portanto, “revestimento inadequado” e “trinca” foram considerados como os poucos defeitos vitais, que deveriam ser eliminados em primeiro lugar, enquanto “arranhão”, “lente muito fina ou muito grossa”, “lente não‐acabada” e “outros” representavam os muitos defeitos triviais.
5.Traçar Plano de Ação para melhorar resultados Após estudar as informações obtidas, a indústria constatou que a mudança para um novo fornecedor da solução utilizada no processo de revestimento das lentes, o qual vendia um produto mais barato, foi a causa responsável pelo aumento do número de lentes que apresentavam um revestimento inadequado. Também foi verificado que uma peça de uma das máquinas utilizada no processo de fabricação das lentes apresentava um desgaste excessivo, o que resultou no aumento do número de lentes trincadas. A empresa elaborou então o plano de ação, que consistiu em voltar a comprar a matéria‐prima do antigo fornecedor e trocar a ferramenta que estava desgastada. Após a adoção destas medidas corretivas, a indústria coletou novos dados relativos às lentes defeituosas produzidas, os quais estão apresentados abaixo.
Melhoria Total = Total de defeitos “antes” – Total de defeitos “após” → 127 – 55 = 0,598 ou 59,8% Total de defeitos “antes” 127
Conclui‐se que, a adoção das medidas corretivas reduziu em 59,8% o número total de defeitos nas lentes produzidas.
COMPARAÇÃO DO “ANTES” E “DEPOIS”. Para melhorar resultados, a comparação de gráficos de Pareto construídos a partir de dados coletados “antes” e “após” a ação corretiva pode ser utilizada para avaliar se a ação executada foi realmente eficaz. Se a frequência da categoria de interesse foi significativamente reduzida, será possível concluir que o bloqueio foi efetivo. Veja abaixo.
- 22 ESTRATIFICAÇÃO (DESDOBRAMENTO) DOS GRÁFICOS DE PARETO.
O desdobramento de gráficos de Pareto consiste em tomar as categorias prioritárias identificadas em um primeiro gráfico como novos problemas a serem analisados por meio de novos gráficos de Pareto, conforme o esquema apresentado abaixo. Desdobramento. O desdobramento continua até que o nível de detalhes desejado seja obtido, de forma que possam ser priorizados os vários possíveis projetos de melhoria, com base nos resultados que cada um deles pode produzir. Estabelecendo Metas Esta figura registra, no primeiro gráfico, um total de 161 ocorrências do problema em defeitos em automóveis.
Analisando o desdobramento, verificamos que se forem executados os projetos de
eliminação dos arranhões na pintura de automóveis e eliminação de aparelhos de ar‐condicionado de automóveis que não funcionam,
o ganho potencial é de uma redução no número de defeitos igual a 28 + 14=42 unidades. Portanto, a meta que pode ser estabelecida para a execução destes dois projetos é: Meta = 42 x 100 = 26% de redução no número de 161 defeitos em automóveis.
Outro exemplo de estratificação de gráfico de Pareto
- 23 TIPOS DE GRÁFICOS DE PARETO.
Gráfico de Pareto para efeitos O gráfico de Pareto para efeitos dispõe a informação de modo que se toma possível a identificação do principal problema enfrentado por uma empresa. Pode ser utilizado para descobrir problemas relacionados às cinco dimensões da Qualidade Total:
Qualidade Custo Entrega Moral Segurança
Percentual de produtos defeituosos, número de reclamações de clientes, número de devoluções de produtos. Perdas de produção, gastos com reparos de produtos dentro do prazo de garantia, custos de manutenção de equipamentos. Índices de atrasos de entrega, índices de entrega em quantidade e local errados, falta de matéria‐ prima em estoque. Índices de reclamações trabalhistas, índices de demissões, absenteísmo. Número de acidentes de trabalho, índices de gravidade de acidentes, número de acidentes sofridos por usuários do produto, taxa de frequência de acidentes. Número de acidentes com equipamentos
OUTROS EXEMPLOS DE GRÁFICO DE PARETO
MONTAGEM DE CONJUNTO ABC
Coleta de dados
Ordenamento dos dados (maior frequência para menor), com as frequências acumuladas Gráfico de Pareto.
- 24 FABRICAÇÃO DE CAPÔS DE CARRO
Coleta de dados
Ordenação dos dados por meio de Distribuição de Frequência
Ordenamento dos dados (maior frequência para menor), com as frequências acumuladas Gráfico de Pareto.
Gráfico de Pareto
VÍDEOS GRÁFICO DE PARETO https://www.youtube.com/watch?v=oAy67MmZE9w&list=PLMq2o4TOsym6s1lfHE_NU37vMLR_IuDCV&index=10 https://www.youtube.com/watch?v=b‐phFzLnBNA&list=PLMq2o4TOsym6s1lfHE_NU37vMLR_IuDCV&index=17
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
- 25
UNIDADE IV MEDIDAS DE VARIAÇÃO E A DISTRIBUIÇÃO NORMAL
O DESVIO PADRÃO E A DISTRIBUIÇÃO NORMAL CONSTITUEM OS INSTRUMENTOS ESTATÍSTICOS MAIS UTILIZADOS NO CONTROLE ESTATÍSTICO DE PROCESSO
- 26 MEDIDAS DE VARIAÇÃO (OU DISPERSÃO) INTRODUÇÃO
O termo “variação” sugere tornar vário ou diverso; alterar, diversificar; mudar; ser inconstante; não ser conforme, discrepar. Na maioria dos casos existirá variação em um conjunto de dados, independente da característica que você esteja medindo, pois nem todos os indivíduos terão o mesmo exato valor para todas as variáveis.
EXEMPLO
Notas
Notas
Durante o ano letivo a Média das notas de João, Mário, Maria e José foi 7,0. Se considerarmos apenas a Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa‐se que as notas são muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante: Grande variação Média das notas de João Média das notas de Mário Sem variação a a partir da Média 9,5 10,0 10,0 partir da Média 9,0 7,0 8,0 7,0 8,0 7,0 7,0 7,0 7,0 6,0 6,0 6,0 3,5 4,0 4,0 2,0 2,0 0,0 0,0 1º Bim 2º Bim Média 3º Bim 4º Bim 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres Bimestres
10,0 Notas
8,0
Média das notas de Maria 6,5
6,5
7,0
Pequena variação a partir da Média
7,5
Média das notas de José 9,5 10,0
7,5
6,0 4,0
7,0
8,0 Notas
8,5 6,0
6,0 4,0
Grande variação a partir da Média
4,0
2,0
2,0
0,0
0,0 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
Diante deste contexto, podemos questionar: qual o aluno é mais estável? Qual teve melhor desempenho? Qual o aluno com pior desempenho? Notadamente o aluno de melhor desempenho é o Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média. Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média.
Neste capítulo vamos desenvolver maneiras específicas de realmente medirmos a variação, de modo que possamos usar números específicos em lugar de julgamento subjetivo. Outros exemplos de variações:
Os preços das casas variam de casa para casa, de ano para ano e de estado para estado. Os preços de um produto variam de supermercado para supermercado. O tempo que você leva para chegar ao trabalho varia dia a dia. O tamanho das peças produzidas em uma empresa também varia. A renda familiar varia de família para família, de país para país e de ano para ano. Os resultados das partidas de futebol, de temporada para temporada, variam. As notas que você tira nas provas, não diferente, também variam. Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês.
Estudaremos alguns tipos de medidas de variação: variância, desvio padrão e coeficiente de variação.
- 27 VARIÂNCIA E DESVIO PADRÃO (amostral) São medidas que representam “um valor médio de variação” em torno da média.
O desvio padrão é um modo que se usa para medir a variabilidade entre os números em um conjunto de dados. Assim como o termo sugere, um desvio padrão é um padrão (ou seja, algo típico) de desvio (ou distância) da média. O desvio padrão é uma estatística importante, mas, frequentemente, é omitida quando os resultados são relatados. Sem ele, você está recebendo apenas uma parte da história sobre os dados. Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e o outro em um balde de água fervendo. O homem dizia que, na média, ele estava se sentindo ótimo! Mas imagine a variabilidade da temperatura para cada um dos pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a variedade de preços de casas com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários pode não representar o que realmente está se passando em sua empresa se os salários forem extremamente discrepantes.
Entendendo a Variância e o Desvio Padrão Calculando a Variância e o Desvio Padrão
Notas
Desvios em torno da Média das notas de João
10,0 8,0 ‐1,0 6,0 ‐3,5 6,0 4,0 3,5 2,0 0,0 1º Bim
9,5 9,0 + 2,5 +2,0
7,0
O problema da soma dos desvios foi resolvido pelos matemáticos: basta elevar cada desvio ao quadrado antes de somá‐los. Um número ao quadrado é sempre positivo, portanto a soma não se anula mais, e a média dos desvios ao quadrado pode ser calculada:
2º Bim Média Bimestres
3º Bim
Notas Média Desvios Desvios elevado ao (x) ( x ) (x ‐ x ) quadrado (x ‐ x )2 3,5 7,0 ‐3,5 (‐3,5)2 = 12,25 6,0 7,0 ‐1,0 (‐1,0)2 = 1 9,5 7,0 2,5 (2,5)2 = 6,25 9,0 7,0 2,0 (2,0)2 = 4 n=4 ‐ =0 =23,5
4º Bim
Variância amostral No gráfico percebemos que o desvio determina o quanto Agora, podemos calcular a média dos quadrados dos 2 cada elemento do conjunto de dados se distancia da desvios, chamada de Variância, representada por S : média 7,0. No 1º Bim. faltam ‐3,5 para se chegar a Média 2 S2 = ( x x) → 23,5 = 7,8 e no 2º Bim. ‐1,0. Já nos 3º e 4º Bim. temos +2,5 e +2,0 4 ‐ 1 acima da média, respectivamente. Transpondo essas n ‐ 1 informações para uma tabela, temos:
Notas (x) 3,5 6,0 9,5 9,0 ‐
Média ( x ) 7,0 7,0 7,0 7,0 ‐
Desvios (x ‐ x ) ‐3,5 ‐1,0 2,5 2,0 =0
A divisão por n−1 aparece por fornecer um melhor resultado do que a divisão por n.
Desvio padrão amostral Mas, se elevamos os desvios ao quadrado para poder calcular sua média, não seria correto que agora fizéssemos a raiz quadrada dessa média, para desfazer a potenciação? Sim, e o valor dessa raiz é chamado Desvio padrão, representado por S:
Desvio padrão → S = 7,8 = 2,8 Interpretação: O desvio padrão indica que a maioria das notas de Perceba que a soma dos desvios é igual a zero. Esta João está concentrada dentro dos limites de 2,8 em torno da característica não é exclusiva deste exemplo. Ela sempre média 7,0. Ou seja, se concentrando entre 4,2 e 9,8: ocorre e prende‐se ao fato de que a média é o ponto de 4,2 ‐2,8 +2,8 9,8 equilíbrio em um conjunto de dados. Como os desvios indicam o grau de variação dos valores 7,0 em relação à média, seria interessante poder encontrar um único número que o representasse. Algo como a Equação da Variância e Desvio padrão média dos desvios. Mas, para fazer essa média, Podemos concluir, então, o uso das equações: precisamos somar os desvios e acabamos de ver que essa da Variância do Desvio padrão soma é sempre igual a zero. 2 2 S = ( x x ) S = S 2 n ‐ 1
- 28 Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo. Notas de Maria: 6,5 6,5 7,5 7,5 1º Calcular a Média
x x
S2 =
( x x)
2
S =
n 1
n
3º Calcular o Desvio padrão
2º Calcular a Variância
S2
x = 6,5+6,5+7,5+7,5 = 7,0 4
S2 = (6,5 – 7,0)2 + (6,5 – 7,0)2 + (7,5 – 7,0)2 + (7,5 – 7,0)2 = 0,33 4 – 1
→
0 , 33
S = 0,5
6,5 ‐0,5 +0,5 7,5
Interpretação: O resultado indica que a maioria das notas de Maria está concentrada dentro dos limites de 0,5 em torno da Média 7,0. Ou seja, se concentrando entre 6,5 e 7,5.
7,0
Notas de José: 4,0 9,5 8,5 6,0 1º Calcular a Média
x x
S2 =
( x x)
2
S =
n 1
n
3º Calcular o Desvio padrão
2º Calcular a Variância
x = 4,0+9,5+8,5+6,5 = 7,0 4
S2 = (4,0 – 7,0)2 + (9,5 – 7,0)2 + (8,5 – 7,0)2 + (6,0 – 7,0)2 = 6,16 4 ‐ 1
S2
→
6 ,16
S = 2,5
4,5 ‐2,5 +2,5 9,5
Interpretação: O resultado indica que a maioria das notas de Maria está concentrada dentro dos limites de 2,5 em torno da Média 7,0. Ou seja, se concentrando entre 4,5 e 9,5.
7,0
Notas de Mário: 7,0 7,0 7,0 7,0 1º Calcular a Média
x x
S2 =
( x x)
2
S =
n 1
n
3º Calcular o Desvio padrão
2º Calcular a Variância
S2
→ S = 0
x = 7,0+7,0+7,0+7,0 = 7,0 4
S2 = (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 + (7,0 – 7,0)2 = 0 4 ‐ 1
O resultado indica que todas as notas de Mário estão dentro dos limites de concentrando exatamente na média 7,0. Portanto, sem variação.
0 em torno da Média 7,0. Ou seja, se
NOTAS SOBRE O DESVIO PADRÃO. O desvio padrão é desvios sempre um valor que está na mesma unidade dos dados originais. Um desvio padrão pequeno, basicamente, significa que os valores do conjunto de dados estão, na média, próximos do centro desse conjunto, enquanto um desvio padrão grande significa que os valores do conjunto de dados estão, na média, mais afastados do média centro. Então, quanto mais espalhados ou dispersos forem os dados, maior será o desvio padrão e, quanto mais concentrados ou homogêneos forem os dados, menor será o desvio padrão. Se os Desvio padrão valores forem iguais, ou seja, sem variação, o desvio padrão será zero. Um desvio padrão pequeno pode ser um bom objetivo em determinadas situações, onde os resultados são restritos, como exemplo, na produção e no controle de qualidade de uma indústria. Uma determinada peça de carro que deve ter centímetros de diâmetro para encaixar perfeitamente não pode apresentar um desvio padrão grande, nesse caso, significaria que acabariam sendo jogadas fora, pois ou não se encaixariam adequadamente ou os carros teriam problemas.
Observe que o desvio padrão das notas de João indica que estão concentradas dentro dos limites de 2,8 em torno da média 7,0. Ou seja, se concentrando entre 4,2 e 9,8. Isto representa um desvio padrão grande.
- 29 COEFICIENTE DE VARIAÇÃO - CV É a medida relativa do desvio padrão que é expressa sob a forma de porcentagem (%). Em algumas situações, podemos estar interessados em uma estatística que indique qual é o tamanho do desvio padrão em relação à média. A melhor forma de representá‐la é através do coeficiente de variação por ser expressa na forma de porcentagem.
Exemplo: Com a média 7,0 de João e Desvio padrão de 2,8, temos:
Equação do Cv:
Cv = 2,8 x 100 → 40% 7,0
Cv = S x 100 x
O resultado indica que a Média 7,0 de João teve um Desvio padrão em torno de 40%.
Ou seja: Cv = Desvio padrão x 100 Média
Interpretação estatística do Cv:
Cv ≤ 15% 15% < Cv < 30% Cv ≥ 30%
= pequena variação em torno da média = moderada variação em torno da média = grande variação em torno da média
Fazendo a Distribuição de Variabilidade das notas de João, Maria, José e Mário, temos: Alunos João Maria José Mário
S 2,8 0,5 2,5 0
x 7,0 7,0 7,0 7,0
Cv (%) 40% 7% 36% 0%
Interpretação do Cv Grande variação Pequena variação Grande variação Nenhuma variação
Cálculo do Cv (%) 2,8
→ /7,0 x 100 → 0,5/7,0 x 100 → 2,5/7,0 x 100
‐
VANTAGEM DO CV. O Cv é útil para compararmos a variabilidade de variáveis que têm desvios padrão diferentes e médias diferentes Exemplo: Suponha que o lote A de peças tenha média de 65 cm de comprimento com desvio padrão de 8 cm; e o lote B tenha média de 105 cm com desvio padrão de 11 cm. QUAL LOTE TEM MENOR VARIAÇÃO E É MAIS CONSISTENTE?
Lote A
Lote B
Cv = 8 x 100 = 12,3% 65
Cv = 11 x 100 = 10,47% 105
O lote B é mais consistente pois tem menor variação.
CONCEITOS BÁSICOS DE PROBABILIDADES
Probabilidade é uma medida numérica que representa a chance de um evento ocorrer.
Dois exemplos clássicos (por sua simplicidade) do conceito de Probabilidade são:
Ao lançar um dado, qual a probabilidade de obter “4”? Ao lançar a moeda, qual a probabilidade de dar “cara”?
Como representar numericamente as chances desses eventos?
Conhecidas certas condições, é possível responder a essas duas perguntas, antes mesmo da realização desses experimentos. A teoria da probabilidade surgiu para tentar calcular a “chance” de ocorrência de um resultado imprevisível, porém, pertencente a um conjunto de resultados possíveis. Todos os dias somos confrontados com situações, que nos conduzem a utilizar a teoria de probabilidade: Dizemos que existe uma pequena probabilidade de ganhar na loteria; Dizemos que existe uma grande probabilidade de não chover num dia de verão; O gerente quer saber a probabilidade de o projeto ser concluído no prazo; O analista financeiro quer saber a chance de um novo investimento ser lucrativo; O gerente de marketing quer saber as chances de queda de vendas se aumentar os preços; O eng. produção quer saber a probabilidade de um novo método de montagem aumentar a produtividade.
É POSSÍVEL QUANTIFICAR O ACASO. Desse modo, se houver probabilidades disponíveis, podemos determinar a possibilidade de cada um dos eventos ocorrer. Para continuar o estudo de probabilidades, três conceitos são importantes: Experimento aleatório, espaço amostral e eventos.
- 30 DISTRIBUIÇÃO NORMAL (ABRAHAM DE MOIVRE 1667 ‐ 1754 ) É usada para distribuições SIMÉTRICAS e possui diversas aplicações, como calcular as probabilidades de PESOS e ALTURAS das pessoas, diâmetro e comprimento de peças em linhas de produção, tempo de vida útil de produtos e diversas outras medições de pesquisas científicas.
Aplicado para distribuições SIMÉTRICAS (Média=Moda=Mediana). Possui como parâmetro a MÉDIA e DESVIO PADRÃO. Também chamada de Curva Normal, Curva de Gauss e Curva em forma de Sino.
Para entender o conceito de uma Distribuição Normal, tomemos como exemplo a distribuição da vida útil de 340 lâmpadas produzidas pela PHILIPS:
Distribuição da vida útil de 340 lâmpadas produzidas pela PHILIPS
Curva NORMAL ou Curva de GAUSS ou Curva em forma de SINO
120
Quantidade
100
100
80 70
60 40 20
70 40
40 10
10
0 700
800
900
1000
1100
1200
1300
Horas
Observe pela Distribuição Normal que o tempo de vida útil das lâmpadas: Possui uma elevação em seu centro e pontas que vão tanto para direita quanto para a esquerda; A Média, Mediana e Moda (1000 horas) encontram‐se exatamente no meio da distribuição; A distribuição de valores menores que a Média (700, 800, 900) e maiores que a Média (1100, 1200, 1300) é simétrica, o que significa que se você dobrá‐la ao meio, suas partes serão como imagens refletidas por um espelho; Como a curva é simétrica em torno da Média, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade; A maioria dos dados é centralizada ao redor da média, de modo que quanto mais longe da média você se mover, cada vez menos pontos de dados você vai encontrar em ambos os lados.
Analisando a variabilidade
Quantidade
Analise a figura abaixo. Veja que a maior parte da vida útil das lâmpadas produzidas pela PHILIPS varia de 700 horas até 1300 horas, com uma boa parte das lâmpadas com vida útil de 900 a 1100 horas. Pensando como consumidor, você gostaria de se deparar com tamanha variabilidade quando for comprar um pacote de lâmpadas? Veja que uma concorrente (OSRAM) irá tentar fabricar lâmpadas com vida útil menos variável; a vida útil terá uma média de 1000 horas, mas suas lâmpadas terão uma vida útil mais consistente, variando de 920 a 1080 horas, com boa parte das lâmpadas com duração entre 980 e 1020 horas. D istribuição da vida útil de 340 lâm padas produzidas pela OSRAM OSRAM 120 100 100 80 PHILIPS 7 0 7 0 60 40 40 40 20 10
10
0 700
800
900
1000
1100
920 1080
Horas
1200
1300
- 31 -
Quantidade
Em uma distribuição Normal, o Desvio padrão tem um significado especial, pois determina a distância da Média até um ponto dentro da distribuição, cada um com a mesma distância da Média. No caso abaixo, supomos (por fins didáticos) que o Desvio padrão do tempo de vida útil das lâmpadas é s=100 horas. 99,74% A regra empírica Na distribuição normal é possível determinar a posição da maioria dos valores, usando as distâncias de 1, 2 ou 3 s =100 95,44% Desvios padrões da Média para estabelecer alguns marcos. A regra que lhe permite fazer isso se chama 68,26% Regra empírica, que diz o seguinte: 120 100 Espera‐se que cerca de 68,26% dos valores encontram‐ 100 se dentro de 1 desvio padrão da média; (no exemplo, 240 lâmpadas (70+100+70). 80 Espera‐se que 95,44% dos valores encontram‐se dentro 70 70 60 de 2 desvios padrões da média; (no exemplo, 320 lâmpadas: 40+70+100+70+40) S= 100 S= 100 40 40 40 Espera‐se que 99,74% dos valores encontram‐se dentro de 3 desvios padrões da média; 20 10 10 (no exemplo, 340 lâmpadas: 10+40+70+100+70+40+10) 0 Estes resultados são aproximações. A regra empírica 700 800 900 1000 1100 1200 1300 não pode ser aplicada às distribuições que não possuam Horas uma forma de montanha em seu centro. ‐3S ‐2S ‐1S x 1S 2S 3S PROBABILIDADES NA DISTRIBUIÇÃO NORMAL
Quando se tem uma variável aleatória com distribuição normal pode‐se obter a probabilidade de essa variável assumir um valor em determinado intervalo, pela área sob a curva dentro dos limites do intervalo. Exemplo 1. Seja X a variável aleatória que representa os tempos de vida útil das lâmpadas produzidas pela PHILIPS Sendo a Média de vida útil das lâmpadas de 1000 horas com Desvio padrão de 100 horas, ache a probabilidade de a lâmpada ter vida útil entre 1000 e 1150 horas, isto é, P(1000 < z < 1150). Probabilidade procurada P(1000 < Z < 1150) P= 0,4332
Z= 1,50 700
800
900
1000
1100
1200
1300
PARA ACHAR A PROBABILIDADE, SIGA 2 PASSOS:
1º PASSO. Calcule o número de desvios padrão que o valor “1150” se distancia da média “1000”. Para isto, utilizamos a equação abaixo, chamada “escore Z”. Calculando o escore Z, temos:
EQUAÇÃO ESCORE Z
z Escore Z
x - x s
Média
Desvio padrão Variável aleatória procurada
z =
1150 - 1000 = 1,50 100
O resultado indica que 1150 está distante 1,50 desvios padrão da média. Use sempre 2 casas decimais. Veja demonstração da área de Z no gráfico acima.
O escore Z é uma medida que indica o número de desvios padrão de um valor a partir da média.
- 32 2º PASSO. Com o escore Z de “1,50”, use a Tabela de Distribuição Normal Padrão para encontrar a probabilidade, como explicado abaixo Na 1ª coluna encontramos “1,5”. Em seguida, encontramos na 1ª linha “0”, que é o último algarismo de “1,50”. Na intersecção da linha e coluna encontramos 0,4332, que indica a probabilidade P(1000 < z < 1150) = 0,4332 ou 43,32% Interpretação: espera‐se que 43,32% das lâmpadas tenham vida útil entre 1000 e 1150 horas
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO
Z
Último dígito 0 1 2 3 4 5 6 7 8 9
A área constante na tabela corresponde a área à direita (sinal positivo): Área = 0,5
-z
-3S
-2S
+z
-1S
0
1S
2S
3S
motivo da qual desconsideramos o sinal negativo no z‐escore nas áreas à esquerda, pois a curva é simétrica em torno da Média, ou seja, os valores maiores que a média e os valores menores do que a Média ocorrem com igual probabilidade. . A tabela não é de distribuição acumulada. Vamos ver alguns exemplos adiante.
- 33
Exemplo 2. Continuando com os dados do exemplo 1, ache P(900 < z < 1000).
Quando partimos da média calculamos apenas um escore Z. Para lado esquerdo o escore Z sempre terá sinal negativo, que não será considerado, pois os dois lados são iguais em termos de probabilidades.
Probabilidade procurada P(900 < Z < 1000)
EQUAÇÃO ESCORE Z
z
P= 0,3413
x - x s
Calculando, temos:
Z= -1,00 700
800
900
z = 900 - 1000 = 100
-1,00 *
Probabilidade: na tabela temos: 0,3413
*Desconsidere o sinal negativo do escore Z
1000
1100
1200
1300
Interpretação: Espera‐se que 34,13% das lâmpadas tenham vida útil entre 1000 e 1100 horas.
Exemplo 3. Continuando com os dados do exemplo 1, ache P(900 < z < 1050).
Neste caso, calculamos dois escores Z e somamos as probabilidades:
ADIÇÃO DE PROBABILIDADES Probabilidade procurada P(900 < Z < 1050)
P= 0,5328
.
100
P1=0,3413
z1 = 900 - 1000 = - 1,00 0,3413
+
P 2=0,1915
z2 = 1050 - 1000 = 0,50 100 0,1915
Soma de probabilidades = 0,5328 Z2 =0,50
Z = -1,00 700 800 900 1000 1100 1200 1300 Interpretação: Espera‐se que 53,28% das lâmpadas tenham vida útil entre 900 e 1050 horas. 1
Exemplo 4. Continuando com os dados do exemplo 1, ache P(1050 < z < 1150).
Neste caso, calculamos dois escores Z (de 1000 a 1150; e de 1000 a 1050). Depois subtraímos as probabilidades:
SUBTRAÇÃO DE PROBABILIDADES
Probabilidade procurada P= 0,2417 P(1050 < Z < 1150) PZ2=0,1915
Z1 =
PZ1=0,4332
1150 - 1000 = 1,50 100 0,4332
‐‐ Z2 = 1050 - 1000 = 0,50 100 0,1915
Z1=1,5 0
Subtração probabilidades = 0,2417
Z2= 0,50
700
800
900
1000
1100
1200
1300
Interpretação: Espera‐se que 24,17% das lâmpadas tenham vida útil entre 1050 e 1150 horas.
- 34 Exemplo 5. Continuando com os dados do exemplo 1, ache P( z < 850 horas) Ou seja, ache a probabilidade de a vida útil da lâmpada ser menor que 850 horas. Neste caso, P1 = 0,5 (meia área). Daí, calculamos Z2 e subtraímos as probabilidades:
Probabilidade procurada P( Z < 850)
Área = 0,5
SUBTRAÇÃO DE PROBABILIDADES P1 = (meia área)
P1=0,4332
0,5 ‐‐ Z2 = 850 - 1000 = -1,50 100 0,4332
PZ2=0,0668
Z1= -1,50
Subtração probabilidades = 0,0668
700
800
900
1000
1100
1200
1300
Interpretação: Espera‐se que 6,68% das lâmpadas tenham vida útil abaixo de 850 horas.
Exemplo 6. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. O fabricante oferece uma garantia de 800 horas, isto é, trocar as lâmpadas que apresentem falhas nesse período ou inferior. Fabrica 15.000 lâmpadas mensalmente. Quantas lâmpadas deverá trocar pelo uso da garantia, mensalmente?
SUBTRAÇÃO DE PROBABILIDADES P1 = (meia área)
Probabilidade procurada P( Z < 800)
0,5 ‐‐ Z2 = 800 - 1000 = - 2,00 00 0,4772
Garantia de 800 horas
Subtração de probabilidades = 0,0228
700 800 900 1000 1100 1200 1300 Interpretação: Constatamos que 2,28% (0,0228) das lâmpadas não atenderão a garantia. Então o fabricante deverá substituir mensalmente: 15.000 x 0,0228 = 342 lâmpadas.
Z-ESCORE E VALOR DE “X” NA DISTRIBUIÇÃO NORMAL Na seção anterior você encontrou a probabilidade que x pudesse estar em um dado intervalo ao calcular a área sob a curva normal para um dado intervalo. Mas, e se lhe fosse dado uma probabilidade e você quisesse encontrar o valor de x?
Encontrando o Z-ESCORE dada uma PROBABILIDADE Exemplo 7. Encontre o z- escore que corresponda à área de 0,2123 (21,23%) da área à direita? Observando a Tabela de Distribuição Normal Padrão encontramos z‐escore de 0,56 conforme destacado abaixo.
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO
Z
Último dígito 0 1 2 3 4 5 6 7 8 9
- 35 Encontrando VALOR DE “X” que corresponda a um Z-ESCORE
Da equação do Z‐ESCORE podemos formar a equação do VALOR DE “X”, conforme demonstrado abaixo:
z
x - x s
zs x x x zs x
Equação para encontrar valor de “x” x = variável procurada x x zs x = média z = escore Z s = desvio padrão
Importante. Para encontrar valores de “x” vamos considerar os sinais dos Z-escore (negativo ou positivo) Exemplo 8. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. Encontre o tempo de vida útil “x” que corresponda a:
a) Z = 1,5: a) Z-escore de 1,5
Interpretação: Para z escore de 1,5 o tempo de vida útil das lâmpadas é de 1.150 horas. Você pode confirmar o resultado consultando o exemplo 1.
b) Z = ‐2: b) Z-escore de -2
x x zs → x = 1000 + 1,5 (100) = 1.150 horas.
x x zs → x = 1000 + (‐2)(100) = 800 horas.
Interpretação: Para z escore de ‐2 o tempo de vida útil das lâmpadas é de 800 horas. Você pode confirmar o resultado consultando o exemplo 6.
Encontrando VALOR DE “X” que corresponda a uma PROBABILIDADE
Exemplo 9. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. O fabricante deseja fixar prazo de garantia, em horas, de tal modo que, se a duração da lâmpada for inferior à garantia, a lâmpada seja trocada. De quantas horas deve ser este prazo para que somente 4% das lâmpadas sejam trocadas?
Passo 1 → 0,5 – 0,04 = 0,46 Passo 2 → Procurando na tabela P(x)=0,46 (0,4599 é mais próximo), encontramos Z = ‐1,75. (negativo pois é à esquerda)
0,5 -Z
Passo 3. Logo:
x x zs → x = 1000 + (‐1,75)(100) = 825 horas.
0,04
Interpretação: O prazo de horas para que seja trocado 4% das lâmpadas deve ser de 825 horas.
700
800
900
1000
1100
1200
1300
-1,75
Z
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Último dígito 0 1 2 3 4 5 6 7 8 9
- 36 Exemplo 10. As pontuações para um teste de Engenheiro em uma empresa são normalmente distribuídas, com uma média de 7,5 com e um desvio padrão de 0,5. Para ser adequado ao emprego, você deve ter pontuação dentro dos 9% primeiros. Qual é a menor pontuação que você pode conseguir e ainda ser adequado ao emprego?
, 6,0 Z
Passo 1 → 0,5 ‐ 0,09 = 0,41 Passo 2 → Procurando na tabela P(x)=0,41 (0,4099 é mais próximo) encontramos Z = 1,34 (positivo pois é à direita).
0,5 +Z
Passo 3
x x zs → x = 7,5 + (1,34)(0,5) = 8,17.
0,09
Interpretação: A menor pontuação que você pode conseguir e ainda assim ser adequado ao emprego é 8,17. 6,5
7,0
7,5
8,0
8,5
9,0
+1,34
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Último dígito 0 1 2 3 4 5 6 7 8 9
Exemplo 11 Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. Dentro de que limite, de ambos os lados da média, ficará 95% das lâmpadas?
Resolução 0,95 Passo 1 → /2 = 0,4750 (para cada lado da média). Passo 2 → Procurar 0,4750 na tabela. Encontramos Z = 1,96 (neste caso teremos Z1= ‐1,96 e Z2 = +1,96).
0,95
Passo 3. Logo:
x x zs ‐ 0,4750 + 0,4750
X1 = 1000 + (‐1,96)(100) = 804 horas. X2 = 1000 + (+1,96)(100) = 1.196 horas.
Interpretação: 95% das lâmpadas ficará entre 804 horas e 1196 horas, ou seja, P 95% ( 804 < z < 1196)
x̄ z= ‐ 1,96 z= + 1,96 Z
TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Último dígito 0 1 2 3 4 5 6 7 8 9
USANDO UMA TABELA DE
VÍDEO DISTRIBUIÇÃO NORMAL: https://www.youtube.com/watch?v=ec9HWoY2kt8
- 37 0% 50% 100%
Tabela Distribuição normal padrão acumulada
Distribuição acumulada de 0% a 100%
Esta tabela que tem o seguinte princípio:
- 38 -
Exemplo de aplicação. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio padrão de 100 horas. Encontre P (900 < z < 1050) usando a tabela de distribuição normal padrão acumulada.
Probabilidade procurada P(900 < Z < 1050) P= 0,5328
SUBTRAÇÃO DE PROBABILIDADE
Z1 =
900 - 1000 = -1,00* 100 0,1587
*Considere o sinal negativo
Z2 = 0,50 → 0,6915
Z2 =
1050 - 1000 = 0,50 100 0,6915
P(x)= Z2 – Z1 → 0,6915 – 0,1587= 0,5328
Z1= -1,00 → 0,1587
700
800
900
1000
1100
1200
1300
-3z
-2z
-1z
0
+1z
+2z
+3z
Veja o Z‐escore destacado na tabela acumulada acima. Confronte o resultado com o exemplo 3.
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário
- 39
UNIDADE V ESTATÍSTICA INFERENCIAL E OS INTERVALOS DE CONFIANÇA
O objetivo da Estatística Inferencial é tirar conclusões sobre a população com base em dados amostrais.
- 40 CONCEITOS BÁSICOS EM ESTATÍSTICA INFERENCIAL ESTATÍSTICA INFERENCIAL O objetivo da Estatística Inferencial é tirar conclusões com base em amostras de tal modo que as informações possam ser expandidas para toda a população.
AMOSTRA (uma parte da população)
POPULAÇÃO (todos os elementos em estudo)
Uma amostra constitui numa redução da população a dimensões menores, sem perda das características essenciais. Examina-se, então, a amostra. Se essa amostra for bastante representativa, os resultados obtidos poderão ser generalizados para toda a população. As conclusões fundamentadas em uma amostra não serão exatamente as mesmas que você encontraria se estudasse toda a população, em função da variabilidade.
Média = ? Desvio padrão = ?
Média = a Desvio padrão = b
Então, toda conclusão tirada por uma amostragem virá acompanhada de um grau de incerteza. A estatística inferencial possui técnicas que permitem dar ao pesquisador um grau de confiabilidade, de confiança, nas afirmações que faz com a população, baseadas nos resultados amostrais. O problema fundamental da estatística inferencial é, portanto, medir o grau de incerteza dessas generalizações. Conhecer a probabilidade de variação do processo de inferência é importante. Com que probabilidade se pode confiar nos resultados obtidos dos dados amostrais?
Exemplo de Estatística Inferencial:
Em 2002, estudo baseado numa amostra de Engenheiros e Gerentes de diversas empresas de Construção Civil, acredita‐se que o salário médio dos cargos desse ramo são:
CARGOS
MÍNIMO (R$)
MÉDIO (R$)
MÁXIMO (R$)
Gerente de Engenharia Civil Engenheiro Civil Sênior Engenheiro Civil Pleno Engenheiro Civil Júnior
4.976 3.694 2.122 1.671
5.951 4.146 2.296 1.872
7.738 4.517 3.206 2.042
Fonte: A REMUNERAÇÃO DE PROFISSIONAIS DA ÁREA DE CONSTRUÇÃO CIVIL – Seu Salário ‐ Jornal Carreira e Sucesso
Observe que esse estudo generalizou os resultados da amostra para a população.
PARÂMETROS E ESTATÍSTICAS
Sempre que as relações forem calculadas com base em dados da população, chamamos de “PARÂMETROS”; e sempre que essas relações se referirem à amostra serão chamadas de “ESTATÍSTICAS”.
PARÂMETROS
Notação para PARÂMETRO e ESTATÍSTICA: Notação Nome da PARÂMETRO ESTATÍSTICA relação (POPULAÇÃO) (AMOSTRA) Tamanho N n Média µ x̄ Variância σ2 S 2 Desvio Padrão σ S
AMOSTRA (uma parte da população)
POPULAÇÃO (todos os elementos em estudo)
ESTATÍSTICAS
µ (lê‐se mi) σ (lê‐se sigma minúsculo)
EXEMPLO:
PARÂMETRO (População)
ESTATÍSTICA (amostra)
Considerando o salário anual dos 2.500 gerentes da empresa XTPO, temos:
Considerando uma amostra do salário anual de 30 gerentes da empresa XTPO, temos:
x1 = R$ 47.874 x2 = R$ 51.896 x3 = R$ 49.567 . . x2500 = R$ 53.456
µ = R$ 51.800 σ = R$ 4.000
x1 = R$ 47.874 x2 = R$ 51.896 x3 = R$ 49.567 . . x30 = R$ 50.301
Os resultados amostrais serão sempre diferentes da população. Essa diferença chama‐se erro.
x̄ = R$ 51.927 S = R$ 3.348
- 41 ESTIMATIVAS E TAMANHOS AMOSTRAIS
ESTIMAÇÃO PONTUAL E INTERVALAR
Uma das maiores utilidades da estatística é chutar um valor (o termo estatístico é estimação), como exemplo: qual é a renda média de uma família brasileira? Qual a expectativa de vida média de um brasileiro? Qual a eficácia de um novo remédio? Todas essas perguntas necessitam de algum tipo de estimativa numérica para respondê‐las. São dois tipos de estimação, onde utilizamos dados estatísticos da amostra como estimadores dos parâmetros populacionais: Estimativa pontual e Intervalar.
Estimativa pontual. Fazemos uma única estimativa (um valor) para um determinado parâmetro populacional. Exemplo conceitual Exemplo prático: Expectativa de vida de um brasileiro: estimar Média amostral Média populacional
estimar Média amostral Média populacional (x ̄= 70 anos) (µ = 70 anos)
Estimativa intervalar. Fazemos uma estimativa de um intervalo de valores possíveis, no qual se admite esteja o parâmetro populacional. Exemplo conceitual Exemplo prático: Expectativa de vida de um brasileiro: estimar Média amostral x̄ Média populacional x̄
estimar Média amostral Média populacional (x ̄= 70 anos) (µ = 60 a 80 anos)
A melhor maneira de estimar o parâmetro é por meio de uma estatística com margem de erro para mais ou para menos. A finalidade de uma estimativa por intervalo é fornecer informações sobre quão próximo a estimativa pontual, produzido pela amostra, está do valor do parâmetro.
INTERVALOS DE CONFIANÇA - IC
Um intervalo de confiança é uma faixa (ou um intervalo) de valores usada para se estimar o verdadeiro valor de um parâmetro populacional, com certa probabilidade. Geralmente é abreviado por “IC”.
A palavra intervalo é usada porque seu resultado se torna um intervalo. A palavra confiança é usada porque você possui certa confiança no processo pelo qual você chegou ao intervalo. Isso se chama nível de confiança (ou credibilidade). O intervalo de confiança associa‐se a um nível de confiança, geralmente 95%., que é a probabilidade de que o intervalo estimado contenha o parâmetro populacional. Usamos o Intervalo de confiança porque a estimativa pontual não indica quão boa é nossa melhor estimativa. Como a estimativa pontual tem a séria falha de não revelar quão boa ela é, os estatísticos desenvolveram o IC.
Intervalos de Confiança para média (amostras grandes)
(amostra n > 30)
O intervalo de confiança baseia‐se na hipótese de que a distribuição das médias amostrais é normal. Então, o nível de confiança pode ser determinado com base nas probabilidades da distribuição normal: Nível de confiança 0,95 A equação do intervalo de confiança para média é dado por: 0,95
IC x z
/ 2
s n
Ao usar o nível de confiança de 95%, temos:
0,95
‐ 0,4750 + 0,4750
/2 = ± 0,4750 → Z= ±1,96
Logo: IC
x̄ z= ‐ 1,96 z= + 1,96 Pode‐se usar outros níveis de confiança:
Confiança desejada
Escore “Z” (da tabela padrão)
Equação
90%
P= 0,4500 → z = 1,65
IC x 1,65
99%
P= 0,4950 → z = 2,58
IC x 2,58
s n s
n
x 1,96
s n
- 42 Mas, de onde vem 0,4750 e 1,96? Observe na tabela de Distribuição Normal Padrão que, se queremos ter 95% de confiança, basta encontrar a probabilidade de 0,4750 (0,95/2). Então, identificamos o escore z, que é de 1,96. TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Último dígito Z 0 1 2 3 4 5 6 7 8 9 Z = 1,96 para 95% de confiança
Se queremos ter 90% de confiança, basta encontrar 0,4500 (0,90/2) na tabela. Como não temos 0,4500, então identificamos a probabilidade mais próxima, que é 0,4505. Observe que o escore z é de 1,65.
Exemplos de cálculos de Intervalos de Confiança - IC
1. De uma amostra de 40 clientes que frequentam um restaurante, constatou-se que a idade média é de 28 anos com desvio padrão de 9 anos. Construa um intervalo de confiança de 95% para a idade média da população. n = 40 25,21 30,79 ‐ 2,79 +2,79 s = 9 x ̄= 28 = 28 2,79 IC x z 28 1,96 n s = 9 40 24 25 26 27 28 29 30 31 32 z = 1,96
Interpretação: Você está 95% confiante que a idade média dos clientes que frequentam o restaurante está entre 25,21 anos e 31,79 anos.
2. Um analista de produção deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para a média populacional. n = 60 978,70 1021,30 ‐ 21,30 +21,30 100 = 1000 21,30 x ̄= 1000 IC x z s = 1000 1,65 n s = 100 60 970 980 990 1000 1010 1020 1030 z = 1,65
Interpretação: Você está 90% confiante que a média do tempo de vida útil das lâmpadas produzidas está entre 978,70 horas e 1021,30 horas. s N n , onde N = população. IC x z n N 1
Nota: Quando a população for finita a equação precisa ser ajustada. Se n ≥ 0,05N, a equação é
- 43 Determinação do tamanho da amostra Para a mesma amostra estatística, conforme o nível de confiança aumenta, o intervalo de confiança fica mais largo. Como consequência, a precisão da estimativa decresce. Veja comparação abaixo:
Do exemplo 2 (página anterior) com 90% de confiança
Do exemplo 2 (página anterior) mas com 95% de confiança
100 = 1000 21,30 1000 1,65 60
100 = 1000 25,30 1000 1,96 60
978,70 1021,30 ‐ 21,30 +21,30 970 980 990 1000 1010 1020 1030
974,70
1025,30
‐ 25,30 +25,30
970 980 990 1000 1010 1020 1030
Quanto maior a confiança, maior será o intervalo
Uma maneira de aumentar a precisão de uma estimativa sem decrescer o nível de confiança é aumentar o tamanho da amostra. Mas, qual o tamanho da amostra necessário para garantir certo nível de confiança para uma margem de erro E dada? Da equação do intervalo de confiança, podemos formar a equação da determinação do tamanho da amostra. Equação da determinação do tamanho da amostra z*s s E n z * s s IC x z n Ez n = tamanho da amostra n E 2 n z s z = escore desejado “normal” n s = desvio padrão E = margem de erro E E = margem de erro Calculando o tamanho da amostra. (Mesmo exemplo anterior) Um analista de produção deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para a média populacional.
n = 60 x ̄= 1000 s = 100 z = 1,65
IC x z
s = 100 = 1000 21,30 1000 1,65 n 60 E = margem de erro
978,70
1021,30
‐ 21,30 +21,30
970 980 990 1000 1010 1020 1030
A margem de erro foi E=21,30. O analista deseja aumentar a precisão do Intervalo de Confiança com uma margem de erro E = 15. Quantas lâmpadas devem ser incluídas na amostra se ele quer estar 90% confiante?
n = ? z = 1,65 s = 100 E = 15
2 z s n E
2 1,65*100 = 121 lâmpadas. 15
→
Intervalos de Confiança para média (amostras pequenas)
Interpretação: 60 lâmpadas já foram coletadas, então o analista precisa de mais 61.
(amostra n ≤ 30)
Para amostras pequenas (n ≤ 30), a distribuição Normal apresenta valores menos precisos, o que nos leva a utilizar um modelo melhor, a Distribuição t de Student (veja tabela próxima página), proposta pelo pesquisador Willian Gosset em 1908.
A distribuição t também tem a forma normal e é simétrica sobre a média. A principal diferença é que a distribuição t tem mais áreas nas caudas, fazendo com que seus valores críticos sejam maiores que os da distribuição Normal. Como consequência, o intervalo de confiança usando a distribuição t ficará mais largo se usa‐se a distribuição Normal. A idéia aqui é que você deve pagar um preço por trabalhar com pequenas amostras. Intervalo mais t de Student n = 15 Normal n = 15 largo com t
Cada tamanho amostral possui sua própria distribuição t, ou seja, ao contrário da distribuição normal, a distribuição t não tem forma fixa, mas sim uma família de curvas. Cada curva é determinada por um parâmetro chamado grau de liberdade, encontrado pelo tamanho da amostra menos um. A idéia aqui é que o preço a ser pago por se ter uma amostra muito pequena, como 5, é mais alto do que o preço por se ter uma amostra de tamanho um pouco maior, como 10 ou 20.
g.l. = n ‐ 1. Graus de liberdade Portanto, a distribuição t varia de acordo com o tamanho da amostra.
O grau de liberdade se refere ao número de valores que são livres para variar após estabelecerem algumas restrições de dados. Por exemplo, se uma amostra de tamanho 4 produz uma média de 87, sabemos que a soma dos números é 4 * 87 = 348; isso não diz nada sobre os valores individuais da amostra – há números infinitos de formas para se obter 4 números que somem 348; mas quando escolhemos três deles, o quarto é determinado. O primeiro número pode ser 84, o segundo 98 e o terceiro 81, então o quarto tem de ser 85, o único número que produzirá a média amostral conhecida, ou seja, existe n ‐ 1 ou 3 graus de liberdade nesse exemplo.
- 44
Conforme os graus de liberdade aumentam, a distribuição t se aproxima da distribuição normal. Depois de 30 g.l., a distribuição t está muito próxima à distribuição normal. Curva t: quanto menor a amostra, mais achatada e larga nas extremidades, em função do erro
Família de curvas da Distribuição t: ‐ Quanto menor o tamanho da amostra, maior o erro. ‐ Quando amostra >30, aproxima‐se da distribuição normal
Encontrando valores de t na tabela
TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL)
Exemplo. Encontre o valor de t para uma confiança de 95%, quando o tamanho da amostra é 15.
g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
1º ‐ Determine o grau de liberdade – g.l. em razão de n=15, os graus de liberdade são:
g.l. = n – 1 → 15 – 1 = 14
2º ‐ encontrar o g.l. = 14 na tabela t. Usando g.l.=14 e confiança de 95%, Você pode ver que t = 2,145, como destacado na tabela.
Construindo Intervalo de Confiança - IC. Construir um IC usando a Distribuição t é similar a construir um IC usando a Distribuição Normal – ambos usam uma estimativa pontual e uma margem de erro. Sua equação é dada por:
EQUAÇÃO DISTRIBUIÇÃO t
IC x t
s n
Onde substituimos z por t
Exemplo. Um analista deseja estimar a média do tempo de vida útil das lâmpadas produzidas. Coletou uma amostra de 20 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um Intervalo de Confiança de 90% para a média populacional.
Solução: g.l = n – 1 → 20 ‐ 1 = 19. Usando g.l.=19 e confiança de 90%, o valor t será 1,729 (destacado na tabela). Ao se calcular o IC, teremos, então:
n = 20 x ̄= 1000 s = 100 t = 1,729
IC 1000 1,729
100 20
IC 1000 38,66
961,34
1038,66
‐ 38,66 +38,66
970 960 980 1000 1020 1040 1060
Interpretação: Você está 90% confiante que a média do tempo de vida útil das lâmpadas produzidas está entre 961,34 horas e 1038,66 horas.
80% 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,282
Nível de confiança 90% 95% 98% 6,314 12,71 31,82 2,920 4,303 6,965 2,353 3,182 4,541 2,132 2,776 3,747 2,015 2,571 3,365 1,943 2,447 3,143 1,895 2,365 2,998 1,860 2,306 2,896 1,833 2,262 2,821 1,812 2,228 2,764 1,796 2,201 2,718 1,782 2,179 2,681 1,771 2,160 2,650 1,761 2,145 2,624 1,753 2,131 2,602 1,746 2,120 2,583 1,740 2,110 2,567 1,734 2,101 2,552 1,729 2,093 2,539 1,725 2,086 2,528 1,721 2,080 2,518 1,717 2,074 2,508 1,714 2,069 2,500 1,711 2,064 2,492 1,708 2,060 2,485 1,706 2,056 2,479 1,703 2,052 2,473 1,701 2,048 2,467 1,699 2,045 2,462 1,645 1,960 2,326
Observe que, no exemplo anterior com amostra de 60 lâmpadas e usando a curva normal, o IC foi mais preciso: 1000 21,30 .
99% 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576
Nota: Para n > 30, você pode usar a distribuição normal. Quando o desvio padrão populacional for conhecido (σ), mesmo com amostra menor que 30, você pode usar a distribuição normal. A distribuição t também pode ser usada para amostra maior que 30.
50% 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,674
- 45 Intervalos de Confiança para Proporções P O termo PROPORÇÕES tem relação com PORCENTAGENS. É a parte de um todo, em comparação com esse todo; fração. Exemplo: Um Analista Industrial fez estudo para determinar a proporção de lâmpadas defeituosas produzidas. Coletou uma amostra de 400 lâmpadas e 60 apresentaram defeitos. Neste caso, temos as seguintes proporções: Lâmpadas defeituosas (60)
Lâmpadas perfeitas (restantes = 340)
ˆp 60 0,15 400
ˆp 340 0,85 400
Então, 15% das lâmpadas estão defeituosas...
...e 85% das lâmpadas estão perfeitas
Observe que a população é constituída por elementos de dois tipos, isto é, cada elemento pode ser interpretado como Sucesso e Fracasso, além dos eventos ser independentes. Nestas condições, a variável aleatória segue uma distribuição Binomial.
De acordo com Teorema do Limite Central, para amostra suficientemente grande (n > 30), a distribuição Binomial aproxima‐se a uma distribuição Normal. Daí é imediato verificar que a proporção amostral p também aproxima‐se da distribuição normal.
Ocorre que, da mesma forma que o intervalo de confiança para média, frequentemente estamos interessados em estimar um intervalo de confiança para proporções populacionais.
Construindo Intervalo de Confiança para Proporções p Construir um intervalo de confiança para uma proporção populacional p é similar a construir um intervalo de confiança para a média populacional. Você começa com um ponto estimado e calcula a margem de erro E.
Equação do Intervalo de Confiança para Proporção p
z = escore z da distribuição normal n = tamanho da amostra p̂ ‐ proporção estimada.
ˆp( 1 ˆp ) IC p ˆp z n
A formação desta equação tem como princípio o método “Normal como aproximação da Binomial”
Exemplo. Um Analista Industrial deseja estimar a proporção de lâmpadas defeituosas produzidas. Coletou uma amostra de 400 lâmpadas e verificou que 15% estão defeituosas. Construa um Intervalo de Confiança de 95% para a proporção populacional.
p̂ = 0,15 n = 400 z = 1,96
IC p 0,15 1,96
0,15( 1 0,15 ) 0,15 0,034 400
11,6%
‐ 3,4% +3,4%
18,4%
11% 13% 15% 17% 19%
Interpretação: Você está 95% confiante que a proporção de lâmpadas defeituosas está entre 11,6% e 18,4%.
Determinação do tamanho da amostra para P Uma forma de aumentar a precisão do intervalo de confiança sem diminuir o nível de confiança é aumentar o número da amostra. Dado o intervalo de confiança IC e a margem de erro E, o tamanho mínimo da amostra n necessário para estimar p é:
Equação da determinação do tamanho da amostra para estimar p n = tamanho da amostra 2 z = escore desejado da distribuição normal z n ˆp (1 ˆp) p̂ = proporção estimada E E = margem de erro (Continuação exemplo anterior). Um Analista Industrial coletou uma amostra de 400 lâmpadas e verificou que 15% estão defeituosas. Construiu um IC com 95% de Confiança e margem de erro E = 0,034. Determine o tamanho da amostra para aumentar a precisão com margem de erro E = 0,02, e com a mesma confiança.
p̂ = 0,15 n = ? z = 1,96 E = 0,02
z n ˆp (1 ˆp) E
2
1,96 0,02
→ 0,15 (1 0,15)
2 = 1.224 lâmpadas.
- 46 Intervalos de Confiança para o Desvio Padrão
Na produção industrial, é necessário controlar o tamanho da variação de um processo. Um fabricante de peças deve produzir, por exemplo, milhares de peças para serem usadas no processo de fabricação. É importante que essas partes variem muito pouco ou nada. Como medir e, consequentemente, controlar o tamanho da variação nas peças?
Para amostra n > 30 (Use a Distribuição Normal)
Segundo Spiegel (1977, p. 262,310), podemos usar a distribuição Normal para encontrar intervalos de confiança para o desvio padrão, desde que a amostra seja maior que 30.
EQUAÇÃO do Intervalo de Confiança para o Desvio padrão S = desvio padrão s IC s z Z = escore Z da distribuição Normal 2n n = tamanho da amostra
Exemplo 1. Um analista deseja estimar o desvio padrão do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 60 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 90% para o desvio padrão populacional.
S = 100 Z = 1,65 n = 60
IC 100 1,65
100 2 60
84,94
115,06
‐ 15,06 +15,06
→ 100 15,06
80 90 100 110 120
Interpretação: Você está 90% confiante que o desvio padrão populacional está entre 84,94 horas e 115,06 horas.
Para amostra n ≤ 30 (Use a distribuição χ2) Para amostras pequenas (n ≤ 30), a distribuição Normal apresenta valores menos precisos, o que nos leva a utilizar um modelo melhor, a distribuição χ2 (lê‐se qui‐quadrado), proposta por Karl Pearson. É importante salientar que muitos autores usam o modelo χ2 para qualquer tamanho amostral, mesmo maior que 30, sem mencionar o método opcional (acima).
2
2
Cada tamanho amostral possui sua própria distribuição χ , ou seja, ao contrário da distribuição normal, a distribuição χ não tem forma fixa, mas sim uma família de curvas. Cada curva é determinada por um parâmetro chamado grau de liberdade, encontrado pelo tamanho da amostra menos um. A idéia aqui é que o preço a ser pago por se ter uma amostra muito pequena, como 5, é mais alto do que o preço por se ter uma amostra de tamanho um pouco maior, como 10 ou 20.
g.l. = n ‐ 1. Graus de liberdade Portanto, a distribuição χ2 varia de acordo com o tamanho da amostra. 2
2
A distribuição χ tem a forma assimétrica positiva (à direita). Conforme os graus de liberdade aumentam, a distribuição χ se aproxima 2 da distribuição normal. Depois de 30 g.l., a distribuição χ está muito próxima à distribuição normal.
gl = 5
2
Família de curvas da Distribuição χ : ‐ Curvas assimétricas positivas ‐ Quanto menor o tamanho da amostra, maior o erro.
gl = 10 gl = 15
2
Curva χ com g.l = 30 aproxima‐se da curva normal.
gl = 30
Encontrando valores de χ2 na tabela Há dois valores a serem considerados para o nível de confiança. O valor χ2L representa o valor crítico da cauda esquerda e o valor χ2R representa o valor crítico da cauda direita.
Nível de confiança
χ2L χ2R
- 47 Exemplo. Encontre os valores χ2L e χ2R e um intervalo de confiança de 90%, quando o tamanho da amostra for 20.
2º ‐ encontrar as áreas de χ2L e χ2R
1º ‐ Ache o grau de liberdade – g.l.
Em razão da confiança c ser 90%, temos:
Como n = 20, os graus de liberdade são:
χ2L
χ2R = 1 ‐ c 2 χ2R = 1 ‐ 0,90 = 0,050 2
= 1 + c 2 χ2L = 1 + 0,90 = 0,950 2
g.l. = n – 1
20 – 1 = 19
3º ‐ encontrar os valores críticos na tabela χ2
Parte da tabela χ2 é exibida abaixo. Usando g.l.=19 e as áreas 0,95 e 0,05 encontramos os valores críticos, como destacado: 0,90 χ2L χ2R 2 2 Por meio da tabela você pode ver que: χ L = 10,1170 e χ R = 30,1435. Interpretação: Então, 90% da área sob a curva está situada entre 10,1170 e 30,1435 2 2 χ L = 10,1170 χ R = 30,1435 Calculando o IC para o desvio padrão
Usamos os valores críticos de χ2L e χ2R para construir o intervalos de confiança para o desvio padrão populacional.
( n 1)s 2
< σ <
( n 1)s 2
2R
2L
S = desvio padrão n = tamanho da amostra χ2R e χ2L = valores críticos da tabela do χ2
Exemplo 2. Um analista deseja estimar o desvio padrão do tempo de vida útil das lâmpadas produzidas. Para tanto, coletou uma amostra de 15 lâmpadas e verificou que a média de vida útil é de 1000 horas, com desvio padrão de 100 horas. Construa um intervalo de confiança de 95% para o desvio padrão populacional.
2º ‐ encontrar as áreas de χ2L e χ2R
1º ‐ Ache o grau de liberdade – g.l. Como n = 15, os graus de liberdade são:
g.l. = n – 1
15 – 1 = 14 3º ‐ encontrar valores críticos na tabela χ2 Usando g.l.=14 e as áreas 0,975 e 0,025, os valores críticos são (ver tabela próxima página):
χ2L = 5,6287 e χ 2R = 26,1189
Em razão da confiança c ser 95%, temos:
χ2L
= 1 + c 2 χ2L = 1 + 0,95 = 0,975 2
χ2R = 1 ‐ c 2
χ2R = 1 ‐ 0,95 = 0,025 2
4º ‐ Use a equação do desvio padrão S = 100 n = 15 χ 2R = 26,1189 χ2L = 5,6287
(15 1)1002 (15 1)1002 < σ < 26,1189 5,6287 73,21 < σ < 157,71
Interpretação: Com 95% de confiança, podemos dizer que o desvio padrão populacional está entre 73,21 horas e 157,71 horas
- 48 -
:
- 49
UNIDADE VI ESTATÍSTICA INFERENCIAL E OS TESTES DE HIPÓTESES
É possível testar afirmativas acerca de populações?
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
- 50 Conceitos introdutórios
TESTE DE HIPÓTESE é um procedimento usado para testar se a afirmação acerca de uma população é verdadeira ou não, com base em dados amostrais.
Uma hipótese é uma suposição quanto ao valor de um parâmetro populacional. O teste de hipótese é tão somente uma regra de decisão para ACEITAR ou REJEITAR uma hipótese qualquer (uma suposição, uma afirmação), com base nos elementos amostrais.
EXEMPLO. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 50 veículos obtendo uma média de 17 km/L, que é diferente da informada pelo fabricante. O resultado de 17km/L não garante que a afirmação do fabricante seja falsa, pois você está se baseando em dados amostrais. Para haver esta garantia só realizando um censo (toda a população), o que é teoricamente impossível. O que devemos avaliar, com auxílio do Teste de Hipótese, é se a afirmação é verdadeira ou não, com base nos dados amostrais.
Organização das hipóteses, Erros de decisão, Nível de significância e Tipos de testes
Organização das hipóteses. Com base no exemplo, podemos formular duas hipóteses: “Nula” e “Alternativa”. Na Hipótese Nula , diremos que a média populacional é igual aquela que se supõe verdadeira; e na Hipótese Alternativa, que nasce de uma desconfiança, diremos que a média populacional não será igual àquela tida como verdadeira. Ora, quando um valor A não é igual a um valor B, haverá três possibilidades: 1ª) A ≠ B ou 2ª) A > B ou 3ª) A < B. Estamos falando, obviamente, da Hipótese Alternativa (Ha). Então, resumindo, temos:
Hipótese Nula: H0 → sugere que a afirmação é verdadeira. Hipótese Alternativa: Ha → sugere que a afirmação é falsa.
No exemplo, temos que:
H0 : µ = 18 km/L Ha : µ < 18 km/L
As hipóteses Nula e Alternativa sempre serão confrontadas. De todo o exposto, já podemos tirar algumas conclusões:
H0 será sempre de igualdade:
H0 : µ = 18 km/L
...e é aquela que será testada.
Ha será sempre de desigualdade: Ha : µ ≠ 18 km/L Ha: µ < 18 km/L Ha : µ > 18 km/L
Nota: O que definirá se Ha trará um sinal ≠ ou > ou < será o resultado obtido na amostra.
Erros de decisão. Uma vez realizado o teste com a Hipótese Nula (H0), poderão advir dois resultados:
Decisão correta
H0 é verdadeira, sendo, portanto, ACEITA. H0 é falsa, devendo, pois, ser REJEITADA. → (ao rejeitar H0, obviamente aceitamos a Hipótese Alternativa Ha).
Entretanto, ao realizar um teste, o pesquisador pode errar de duas formas:
H0 é verdadeira, mas será REJEITADA. → Chamamos de ERRO TIPO I. Erros de decisão
(é o mesmo que condenar um inocente! O réu disse a verdade, mas seus argumentos foram rejeitados).
H0 é falsa, mas será ACEITA. → Chamamos de ERRO TIPO II. (é o mesmo que inocentar um culpado! O réu mentia, mas seus argumentos foram aceitos).
Nível de significância α. Note que o erro Tipo I é pior pois condenar um inocente é algo terrível, e este erro o pesquisador deve evitar a todo o custo! Porém, há sempre uma probabilidade de cometê‐lo. Esta probabilidade é chamada de Nível de Significância α (alfa). Portanto:
O NÍVEL DE SIGNIFICÂNCIA α é a PROBABILIDADE de se cometer um ERRO TIPO I, devendo ser sempre a menor possível. Normalmente, usamos um Nível de Significância de 10% (0,10); 5% (0,05); ou 1% (0,01). Mas pode‐se usar qualquer α. Tipos de Testes. Usamos a curva normal (ou t) para realizar os testes, sendo três tipos possíveis, e o que será usado depende do sinal presente na hipótese alternativa Ha.
Teste Unilateral à esquerda H0 : µ = 18 km/L Ha : µ < 18 km/L α 5%
Região de aceitação
Região de rejeição α 0,05
0,95
18km/L (0,5-0,05=0,45) Z=‐1,65
Este teste será usado quando se tem um valor mínimo aceitável. Sinal usado em Ha: <.
Teste Unilateral à direita Teste Bilateral H0 : µ = 18 km/L H0 : µ = 18 km/L Ha : µ > 18 km/L Ha : µ ≠ 18 km/L α 5% α 5% Região de Região de aceitação aceitação Região de Região de 0,95 Região de rejeição rejeição rejeição α 0,025 0,95 α 0,025 α 0,05 2 2 18km/L 18km/L 0,95/2 = 0,4750) Z=‐1,96 Z=+1,96 ( Z=+1,65 (0,5-0,05=0,45) Este teste será usado quando se tem um valor Será usado quando se tem um valor dentro de um máximo aceitável. Sinal usado em Ha: >. intervalo aceitável. Sinal usado em Ha: ≠.
TOMANDO A DECISÃO: A Região de rejeição (demonstrada no gráficos) é o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a Hipótese Nula (H0). Se a estatística de teste cair nesta região, diremos que a afirmativa do fabricante é falsa, o que fará com que rejeitemos a Hipótese Nula (H0). Mas, se a estatística de teste cair na Região de aceitação, diremos que a afirmativa é verdadeira. O termo “estatística de teste” é feito por meio de cálculos que serão apresentados a seguir. O nível de significância α 5% (demonstrado nos gráficos) é apenas um exemplo, pois podemos usar também outros níveis.
- 51 Teste de Hipótese para média (amostras grandes n > 30)
(Distribuição Normal z)
Usamos a Distribuição Normal (z) para realizar o teste de hipótese para amostra maior que 30. Quando o desvio padrão é conhecido, mesmo com amostra menor que 30, também podemos usar a Normal. Embora tenha 3 tipos de testes, na prática aplicamos um ou outro, nunca os três conjuntamente. Mostraremos a aplicação dos três testes em problemas diferentes.
A estatística de teste usada para média é: (n > 30)
z
x s n
x = média amostral z = Estatística de teste µ = média Hipotética (H0) s = desvio padrão n = tamanho da amostra
EXEMPLO 1. TESTE UNILATERAL À ESQUERDA. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 50 veículos da mesma marca, obtendo uma média de 17 km/L com desvio padrão de 3km/L. Testar a hipótese, contra a alternativa de que o consumo é menor que 18km/L, com Nível de Significância de 6%.
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) : 2º passo: Definir o tipo de teste a ser usado: Região de Como a média amostral foi 17km/L, temos um valor mínimo aceitação Região de rejeição aceitável. O sinal é <, logo, usamos o unilateral à esquerda. 0,94 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ < 18 km/L
5º passo: Calcular a estatística de teste:
x z s
3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=6% (0,06) | 0,5 – 0,06 = 0,44 → z = ‐1,56
Ao procurar 0,44 na tabela Normal, encontramos z = ‐ 1,56 (como o teste é “unilateral à esquerda”, o escore z será negativo).
n
α 0,06
z 18km/L
‐1,56
17 18 = ‐2,35 3 50
6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão: na Região de rejeição: Note que a estatística de teste z caiu na Região de rejeição. Então, você deverá REJEITAR A Região de HIPÓTESE NULA (Ho). aceitação estatística de teste Região de (obtido no 5º passo) rejeição 0,94 Ou seja, não se pode aceitar que o consumo médio de α 0,06 combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja menor que este valor, com uma 18km/L probabilidade de erro de 6%. ‐2,35 ‐1,56 -3z -2z -1z 0 +1z +2z +3z
EXEMPLO 2. TESTE UNILATERAL À DIREITA A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar a afirmação e analisa 35 veículos da mesma marca, obtendo uma média de 18,5 km/L com desvio padrão de 2,5 km/L.. Testar a hipótese, contra a alternativa de que o consumo é maior que 18km/L, com Nível de Significância de 4%.
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) : Região de 2º passo: Definir o tipo de teste a ser usado: aceitação Como a média amostral foi 18,5km/L, temos um valor máximo 0,96 Região de aceitável. O sinal é >, logo, usamos o unilateral à direita. rejeição 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ > 18 km/L
5º passo: Calcular a estatística de teste:
x z s
3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=4%(0,04) | 0,5 – 0,04 = 0,46 → z = +1,75
Ao procurar 0,46 na tabela Normal, encontramos z = +1,75 (como o teste é “unilateral à direita”, z será positivo).
n
α 0,04
18km/L z=+1,75
z
18,5 18 = +1,18 2,5
estatística de teste (obtido no 5º passo)
6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão: Note que a estatística de teste z não caiu na na Região de rejeição: Região de Rejeição. Então, você deverá ACEITAR Região de A HIPÓTESE NULA (Ho). aceitação 0,96 Região de rejeição Ou seja, pode‐se aceitar que o consumo médio de α 0,04 combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja maior que este valor, com uma 18km/L probabilidade de erro de 4%. z=+1,75 z=+1,18 -3z -2z -1z 0 +1z +2z +3z
35
- 52 EXEMPLO 3. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar a afirmação e analisa 42 veículos da mesma marca, obtendo uma média de 16,8 km/L com desvio padrão de 2 km/L. Testar a hipótese, contra a alternativa de que o consumo não é de 18km/L, com Nível de Significância de 10%.
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) : Região de 2º passo: Definir o tipo de teste a ser usado: aceitação Região de Região de A idéia não é testar se é menor ou maior. Queremos testar um rejeição rejeição intervalo aceitável. O sinal é ≠, logo, usamos o Bilateral. α 0,05 0,90 α 0,05 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ ≠ 18 km/L
5º passo: Calcular a estatística de teste:
x z s
3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=10% | 0,90/2 = 0,45 → z = ‐1,65 e +1,65
2
n
2
18km/L Z=‐1,65 Z=+1,65 (0,90/2 = 0,45)
Ao procurar 0,45 na tabela Normal, encontramos z = ±1,65 (como o teste é “Bilateral”, usamos z positivo e negativo).
z
16,8 18 = ‐3,88 2 42
6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão: na Região de rejeição: Note que a estatística de teste z caiu na Região de Rejeição. Então, você deverá REJEITAR A Região de HIPÓTESE NULA (Ho). aceitação estatística de teste Região de Região de (obtido no 5º passo) rejeição Ou seja, não se pode aceitar que o consumo médio de rejeição α 0,05 0,90 α 0,05 combustível do Pálio Fire 1.0 é de 18 km/L, contra a 2 2 hipótese de que seja diferente deste valor, com uma probabilidade de erro de 10%. 18km/L Z=‐1,65 Z=+1,65 z=‐3,88 -3z -2z -1z 0 +1z +2z +3z
Teste de Hipótese para média (amostras pequenas n ≤ 30)
(Distribuição t de Student)
Usamos a Distribuição t de Student (t) para realizar o teste de hipótese para amostra menor ou igual a 30.
x = média amostral
A estatística de teste usada para média é:
t
(n ≤ 30)
x µ = média Hipotética (H0) s s = desvio padrão n = tamanho da amostra n
t = Estatística de teste t Student
Efetuar o Teste usando a Distribuição t de Student é similar a efetuar o Teste com a Normal z. Difere‐ se apenas no 3º passo, onde usamos n ‐ 1 graus de liberdade e a tabela t para encontrar o limite de Rejeição/Aceitação.
EXEMPLO 4. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista decide testar essa afirmação e analisa 22 veículos da mesma marca, obtendo uma média de 17,4 km/L com desvio padrão de 1,7km/L. Testar a hipótese de que o consumo é menor que 18km/L, com Nível de Significância de 5%.
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função de t (nível α) : 2º passo: Definir o tipo de teste a ser usado: Região de Como a média amostral foi 17,4km/L, temos um valor mínimo aceitação Região de aceitável. O sinal é <, logo, usamos o unilateral à esquerda. rejeição 0,95 1º passo: Formular as hipóteses: H0 : µ = 18 km/L Ha : µ < 18 km/L
3º passo: Encontrar t que estabelece os limites de Rejeição/Aceitação: gl=n‐1→ 22–1=21 → ‐1,721 | α=5% (0,05)
Analise a tabela t de Student na próxima página: Usando Unilateral, α=0,05 com g.l.= 21, encontramos t = 1,721. (como o teste é “unilateral à esquerda”, t será negativo).
5º passo: Calcular a estatística de teste:
x t s n
α 0,05
t 18km/L
17,4 18 = ‐1,65 1,7
‐1,721
A única diferença da t para z está no 3º passo.
6º passo: Verifique se a estatística de teste t caiu 7º e último passo: Tomada de decisão: na Região de rejeição: Note que a estatística de teste z não caiu na Região de rejeição. Então, você deverá ACEITAR Região de A HIPÓTESE NULA (Ho). aceitação Região de rejeição 0,95 Ou seja, pode‐se aceitar que o consumo médio de α 0,05 combustível do Pálio Fire 1.0 é de 18 km/L, contra a hipótese de que seja menor que este valor, com uma 18km/L probabilidade de erro de 5%. ‐1,721 ‐1,65 -3z -2z -1z 0 +1z +2z +3z
22
- 53 TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL) 50% 80% 90% 95% 98% Unilateral, α 0,25 0,10 0,05 0,025 0,01 Bilateral, α 0,50 0,20 0,10 0,05 0,02 g.l. 1 1,000 3,078 6,314 12,71 31,82 2 0,816 1,886 2,920 4,303 6,965 3 0,765 1,638 2,353 3,182 4,541 4 0,741 1,533 2,132 2,776 3,747 5 0,727 1,476 2,015 2,571 3,365 6 0,718 1,440 1,943 2,447 3,143 7 0,711 1,415 1,895 2,365 2,998 8 0,706 1,397 1,860 2,306 2,896 9 0,703 1,383 1,833 2,262 2,821 10 0,700 1,372 1,812 2,228 2,764 11 0,697 1,363 1,796 2,201 2,718 12 0,695 1,356 1,782 2,179 2,681 13 0,694 1,350 1,771 2,160 2,650 14 0,692 1,345 1,761 2,145 2,624 15 0,691 1,341 1,753 2,131 2,602 16 0,690 1,337 1,746 2,120 2,583 17 0,689 1,333 1,740 2,110 2,567 18 0,688 1,330 1,734 2,101 2,552 19 0,688 1,328 1,729 2,093 2,539 20 0,687 1,325 1,725 2,086 2,528 21 0,686 1,323 1,721 2,080 2,518 22 0,686 1,321 1,717 2,074 2,508 23 0,685 1,319 1,714 2,069 2,500 24 0,685 1,318 1,711 2,064 2,492 25 0,684 1,316 1,708 2,060 2,485 26 0,684 1,315 1,706 2,056 2,479 27 0,684 1,314 1,703 2,052 2,473 28 0,683 1,313 1,701 2,048 2,467 29 0,683 1,311 1,699 2,045 2,462 0,674 1,282 1,645 1,960 2,326 Confiança, c
Níveis de Significância, α
Teste de Hipótese para Proporções P
99% 0,005 0,01 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576
(Distribuição Normal)
Quando lidamos com Proporções, a população é constituída por elementos de dois tipos, isto é, cada elemento pode ser interpretado como Sucesso e Fracasso, além dos eventos ser independentes. Nestas condições, a variável aleatória segue uma distribuição Binomial. De acordo com Teorema do Limite Central, para amostra suficientemente grande (n > 30), a distribuição Binomial aproxima‐se a uma distribuição Normal. Daí é imediato verificar que a proporção amostral p também aproxima‐se da distribuição normal. Ocorre que, da mesma forma que o Teste de Hipótese para média, frequentemente estamos interessados em Testar Hipóteses para proporções populacionais.
A estatística de teste usada para Proporções é:
z
p p0 p0( 1 p0) n
p = proporção amostral p0 = proporção Hipotética (H0) n = tamanho da amostra z = Estatística de teste z (Normal)
EXEMPLO 5. Inspeciona-se uma amostra de 200 peças de uma grande remessa, encontrando-se 8% de peças defeituosas (200 x 0,08 = 16 peças defeituosas). O fornecedor garante que não haverá mais de 6% de peças defeituosas em toda a remessa. Testar a hipótese de que a proporção de peças defeituosas é maior que 6%, com Nível de Significância de 5%.
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função do escore z (nível α) 2º passo: Definir o tipo de teste a ser usado: Região de aceitação Como a proporção amostral foi 8%, temos um valor máximo 0,95 Região de aceitável. O sinal é >, logo, usamos unilateral à direita. 1º passo: Formular as hipóteses: H0 : p0 = 6% Ha : p > 6%
3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: α=5% | 0,5 – 0,05= 0,45 → z=+1,65 Ao procurar 0,45 na tabela Normal, encontramos z = +1,65 (como o teste é “unilateral à direita”, usamos z positivo).
z
rejeição α 0,05
5º passo: Calcular a estatística de teste z:
z=+1,65
p0( 1 p0) n 0,08 0,06
0,06( 1 0,06) 200
Calculadora: 0,02
z
p p0
( ( 0,06x0,94) 200) = 1,19
= +1,19
- 54 6º passo: Verifique se a estatística de teste z caiu 7º e último passo: Tomada de decisão: na Região de rejeição: Note que a estatística de teste z não caiu na Região de Rejeição. Então, você deverá ACEITAR Região de Estatística de teste A HIPÓTESE NULA (Ho). aceitação (obtida no 5º passo) 0,95 Região de rejeição Ou seja, pode‐se aceitar que a proporção de peças α 0,05 defeituosas seja de 6%, contra a hipótese de que seja maior que este valor, com uma probabilidade de erro de 5%. z=+1,65 z=+1,19 -3z -2z -1z 0 +1z +2z +3z
Teste de Hipótese para o Desvio padrão (Distribuição χ 2)
Usamos a Distribuição χ 2 (qui‐quadrado) para realizar o teste de hipótese para o desvio padrão. (qualquer tamanho amostral)
A estatística de teste usada para o desvio padrão é:
2
Efetuar o Teste usando a Distribuição χ é similar a efetuar o Teste com t. Difere‐se apenas no 3º passo, onde usamos n ‐ 1 2 graus de liberdade e a tabela χ para encontrar o limite de Rejeição/Aceitação.
n = tamanho da amostra S = desvio padrão amostral ( n 1) ( S) 2 S0 = desvio padrão Hipotético (H0) 2 ( S0 ) χ2=Estatística teste (qui‐quadrado) 2
EXEMPLO 6. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L., com desvio padrão de 1,2 km/L Uma revista decide testar essa afirmação e analisa 20 veículos da mesma marca, obtendo uma média de 17,4 km/L com desvio padrão de 1,7km/L. Testar a hipótese de que o desvio padrão não é de 1,2 km/L, com Nível Significância 10%.
1º passo: Formular as hipóteses: H0 : S0 = 1,2 km/L Ha : S ≠ 1,2 km/L
2º passo: Definir o tipo de teste a ser usado: A idéia não é testar se é menor ou maior. Queremos testar um intervalo aceitável. O sinal é ≠, logo, usamos o Bilateral.
3º passo: encontrar os valores χ2L e χ2R com nível de significância α =10% (90% de confiança), quando o tamanho da amostra for 20.
2
1º ‐ Ache o grau de liberdade – g.l. Como n = 20, os graus de liberdade são: g.l. = n – 1 20 – 1 = 19
2
2º ‐ encontrar as áreas de χ L e χ R Em razão da confiança c ser 90%, temos: 2
χ L = 1 + c 2 2 χ L = 1 + 0,90 = 0,950 2
χ
2
R = 1 ‐ c 2 2 χ R = 1 ‐ 0,90 = 0,050 2 2
3º ‐ encontrar os limites de Rejeição e Aceitação na tabela χ 2 Parte da tabela χ é exibida abaixo. Usando g.l.=19 e as áreas 0,95 e 0,05 encontramos os valores críticos, como destacado:
χ2L
χ2R
4º passo: Calcular a estatística de teste χ2 2
( 20 1) ( 1,7) 2 ( n 1) ( S) 2 2 = 38,13 ( S0 ) 2 ( 1,2 ) 2
5º passo:Tomada de decisão: Observe que 38,13 caiu na Região de rejeição. Portanto, deve‐se REJEITAR A HIPÓTESE NULA
Por meio da tabela você pode ver os limites de Rejeição/Aceitação: 2 2 χ L = 10,1170 e χ R = 30,1435. 0,90
Região de rejeição 0,05
Região de aceitação
Região de rejeição 0,05
2 2 χ L = 10,1170 χ R = 30,1435 38,13
- 55 2
2
Para testes unilaterais à esquerda, usamos χ L como limite de Rejeição. Para testes unilaterais à direita, usamos χ
2
Para unilateral à esquerda (χ L ) use sempre 1 – α
2
R
como limite de Rejeição.
Para unilateral à direita (χ R) use sempre α
- 56 EXEMPLO. TESTE UNILATERAL À ESQUERDA. Encontre χ2L quando o tamanho da amostra for 23, com nível de significância 10%
g.l. = n – 1 → 23 – 1 = 22 1 – α → 1 – 0,10 = 0,90
Usando g.l. = 22 com α = 0,90, encontramos 14,0415 na tabela χ2 2 Nota: para testes χ L use sempre 1 – α Região de aceitação 0,90
Região de rejeição 0,10
χ2L = 14,0415
EXEMPLO. TESTE UNILATERAL À DIREITA. Encontre χ2R quando o tamanho da amostra for 41, com nível de significância 5%
g.l. = n – 1 → 41 – 1 = 40 Usando g.l. = 40 com α = 0,05, encontramos 55,7585 na tabela χ2 2 α → 0,05 Nota: para testes χ R use sempre α Região de aceitação 0,95 Região de rejeição 0,05 χ2R = 55,7585 TABELA DE DISTRIBUIÇÃO NORMAL PADRÃO Último dígito Z 0 1 2 3 4 5 6 7 8 9
- 57 Teste para duas amostras - Conceitos introdutórios
Nos capítulos anteriores, mostramos como determinar INTERVALOS DE CONFIANÇA e realizar TESTES DE HIPÓTESES para situações que envolvem UMA ÚNICA AMOSTRA de dados extraída de UMA ÚNICA POPULAÇÃO.
Agora, você ESTENDERÁ o TESTE DE HIPÓTESE e INTERVALOS DE CONFIANÇA para procedimentos que COMPARAM estatísticas oriundas de DUAS AMOSTRAS de dados extraídas de DUAS POPULAÇÕES.
Justificativas e exemplos (adaptado de Farias et al, 2003):
Em muitas áreas da atividade humana há uma busca contínua por novos métodos, novos procedimentos que superem ou melhorem, em certo sentido, aqueles já existentes:
No setor de transportes, procuramos motores de maior rendimento e de menor ruído. A medicina procura drogas com maior poder de cura e o mínimo possível de efeitos colaterais. Na agricultura, buscamos variedades mais adequadas e mais produtivas de cereais. Um produtor quer saber se o novo cimento‐e‐cola para fixar azulejos tem maior grau de aderência que o atual.
Em todas essas situações, é preciso comparar as técnicas usuais com os métodos alternativos. A comparação da eficiência de duas drogas, de dois métodos de produção de cimento‐e‐cola ou, em geral, de dois tratamentos é, pois, uma questão importante que surge frequentemente no trabalho de pesquisa e desenvolvimento.
A escolha entre dois tratamentos diferentes não é uma tarefa tão simples como, a princípio, possa parecer. É necessário realizar experimentos, coletar informações e fazer inferências (julgar) a partir da evidência experimental.
Tomemos o caso de duas terapias alternativas. Se todos os portadores de determinada doença se comportassem de maneira idêntica em relação aos tratamentos utilizados, bastaria examinar o comportamento de um frente às alternativas existentes; a decisão sobre qual é o melhor deles seria óbvia. Nenhuma análise estatística seria necessária. Tal, entretanto, não é o caso. A reação a um tratamento varia de indivíduo para indivíduo, e, via de regra, não há tratamento ótimo para todos. Como, em geral, não se conhece a reação de cada indivíduo, prescreve‐se o tratamento que, em média, dá os melhores resultados.
O procedimento para determinar qual dos dois tratamentos é, em média, o mais eficiente envolve a seleção de duas amostras e a comparação dos resultados obtidos. Neste capítulo, discutiremos como comparar os efeitos médios de dois tratamentos.
Teste de Hipótese para a diferença de duas médias
Para amostras dependentes (dados emparelhados)
Duas amostras são dependentes se cada membro de uma amostra corresponde a “Antes” “Depois” um membro de outra amostra. Amostras dependentes envolvem duplas idênticas, “antes e depois” de resultados para a mesma pessoa ou objeto. Veja ao lado. Para cada par definido, o valor da primeira amostra está claramente associado ao respectivo valor da segunda amostra.
Nestes casos as duas amostras serão de mesmo tamanho. Amostras dependentes também são chamadas de amostras relacionadas ou dados emparelhados.
amostra 1 amostra 2
A equação para resolução de dados emparelhados é mostrada abaixo.
EQUAÇÃO DADOS EMPARELHADOS (use t ou z)
d d n
“d” é a diferença de cada dado, encontrado por X2‐X1
Estatística de teste
t
d = média das diferenças, dada por
d Sd
Sd = desvio padrão das diferenças, dado por
d 2 d2 n Sd n 1
n 2
“d ” é a diferença de cada dado, ao quadrado
t = distribuição t de Student. Use a Normal Z se n>30. n = tamanho da amostra.
Exemplo 1. Dez cobaias adultas foram submetidas ao tratamento com certa ração para engordar, durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no princípio e no fim de semana, designados respectivamente por X1 e X2 são dados a seguir. Ao nível de 1% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso médio dos animais? (Moretim)
- 58 Resolução: A tabela com os dados da experiência é mostrada abaixo, juntamente com os cálculos do 1º e 2º passos.
1º passo: Encontrar d (X2‐X1) e ∑d (para permitir cálculo de d , que é a média das diferenças). 2º passo: Encontrar d2 e ∑d2 (para permitir cálculo de Sd, que é o desvio padrão das diferenças). Dados da experiência
Cobaia
X1
X2
1
635 704 662 560 603 745 698 575 633 669
640 712 681 558 610 740 707 585 635 682
2 3 4 5 6 7 8 9 10
diferença d (X2‐X1) 5 8 19 ‐2 7 ‐5 9 10 2 13 ∑d=66
2
25 64 361 4 49 25 81 100 4 169 ∑d2=882
d
3º passo: Calcular d
d d 66 = 6,6
n
n é o tamanho da amostra
10
4º passo: Calcular Sd
Sd
d 2 66 2 d2 882 n 10 = 7,043 n 1 10 1
5º passo: Executar o Teste de Hipótese. 5.1 Formular as hipóteses Em termos da diferença ”d”, as hipóteses são descritas como: H0 : µ = 0 Ha : µ > 0
TABELA DISTRIBUIÇÃO t DE STUDENT (PARCIAL) Confiança, c Unilateral, α Bilateral, α g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
50% 0,25 0,50 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,674
80% 0,10 0,20 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,282
90% 0,05 0,10 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,645
95% 0,025 0,05 12,71 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 1,960
98% 0,01 0,02 31,82 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,326
99% 0,005 0,01 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576
5.2 Definir o tipo de teste a ser usado O sinal é >. Então o teste será unilateral à direita.
5.3 Encontrar t que estabelece limites de Aceitação/Rejeição gl=n‐1 10‐1=9 → 2,821 | α=1% (0,01) Usando Unilateral, α=0,01 com g.l.= 9, encontramos t = 2,821 (veja na tabela t ao lado). Como o teste é “unilateral à direita”, t será positivo.
5.4 Desenhe as regiões de Aceitação/Rejeição Região de aceitação 0,99 Região de rejeição α 0,01 t=+2,821
5.5 Calcular a estatística de teste:
t
d Sd
6,6 7,043
n
= 2,96
10
5.6 Verifique se t caiu na região de Rejeição
Região de aceitação
0,99
Região de rejeição α 0,01
+2,821
+2,96 5.7 Conclusão: A estatística de teste t caiu na Região de Rejeição. Então, você deverá REJEITAR A HIPÓTESE NULA (Ho). Ho é falsa.
Não se pode aceitar que o peso se manteve. Então, concluímos que o uso da ração contribui para o aumento do peso médio dos animais.
- 59 Para amostras independentes (dados não emparelhados)
Duas amostras são independentes se a amostra selecionada de uma das populações não é relacionada à amostra selecionada da segunda população. Veja ao lado. Em muitas situações em que desejamos comparar as médias dos efeitos de dois tratamentos, não se utiliza o esquema de dados emparelhados, seja porque o emparelhamento não é possível, seja porque não é a maneira mais conveniente de se fazer a comparação. Dividem‐se
então os indivíduos em estudo em dois grupos separados. Neste caso as duas amostras podem ser de tamanhos diferentes.
amostra 1 amostra 2
Se os dados não são emparelhados, não terá sentido calcular as diferenças “d” entre os valores das duas amostras, e o teste deverá ser baseado na diferença X1 ‐ X2 entre as médias das duas amostras. Temos dois casos para amostras independentes: teste Z para amostras grandes (n>30, ou se o desvio padrão for conhecido) e teste t para amostras pequenas (n≤30, ou se o desvio padrão for desconhecido).
Teste Z para amostras grandes (n>30)
EQUAÇÃO TESTE Z DADOS NÃO EMPARELHADOS (n>30)
Estatística de teste A estatística de teste z segue uma distribuição normal.
z
X1 X 2 2
(S1) (S2) n1 n2
2
X1 =média da amostra população 1 X 2 = média da amostra população 2
S1 = desvio padrão da população 1 S2 = desvio padrão da população 2 n1 = tamanho da amostra população 1 n2 = tamanho da amostra população 2
Exemplo 1: Um fabricante produz dois tipos de pneus, A e B. Uma grande companhia de taxi testou a durabilidade de 50 pneus do tipo A, obtendo média de 24.000km e desvio padrão de 2.500km, e 40 pneus do tipo B, obtendo média de 26.000km e desvio padrão de 3.000km. Ao nível de 4% de significância, testar a hipótese de que a duração média dos dois tipos de pneus é diferente (ou seja, não é a mesma).
1º passo: Formular as hipóteses H0 : X1 = X2 Ha : X1 ≠ X2
5º passo: Calcular a estatística de teste
4º passo: Desenhar as Regiões de Rejeição e de Aceitação, em função de z (nível α) 2º passo: Definir o tipo de teste a ser usado Região de aceitação Queremos testar se a média de A e B é diferente. O Região de Região de sinal é ≠. Usamos o Bilateral, pois testaremos um rejeição rejeição α 0,02 0,96 intervalo aceitável. α 0,02
3º passo: Encontrar escore z que estabelece os limites de Rejeição/Aceitação: 0,96 α=4% | /2 = 0,48 → z = ‐2,05 e +2,05
2
2
Z=‐2,05 Z=+2,05 (0,96/2 = 0,48)
X1 X 2
z
(S1) (S2) n1 n2
z
24.000 26.000 2
( 2.500) (3.000) 50 40
Ao procurar 0,48 na tabela Normal, encontramos z = ±2,05 (pois 0,4798 é mais próximo. Como o teste é “Bilateral”, usamos z positivo e negativo).
6º passo: Verifique se a estatística de teste caiu 7º e último passo: Tomada de decisão: na Região de rejeição: A estatística de teste caiu na Região de Rejeição. Então, deve‐se REJEITAR A HIPÓTESE NULA (Ho). Região de aceitação estatística de teste Ou seja, Não se pode aceitar que a durabilidade média Região de Região de (obtido no 5º passo) rejeição dos pneus é a mesma. Concluímos que os pneus tem rejeição α 0,02 0,96 α 0,02 durabilidade média diferente. 2 2 z=‐2,05 z=+2,05 z=‐3,38
2
2
2
3,38
- 60 Gráficos e Tabelas, 61 Distribuição de frequências em classes, 65 Medidas de posição (Média, Mediana e Moda), 68 Medidas de Ordenamento (Quartil, Decil e Percentil), 74 Vocabulário básico de Estatística, 76 População e amostra, 78 Estatística Descritiva e Inferencial, 80
UNIDADE VII Complementos
- 61 GRÁFICOS E TABELAS
As tabelas e gráficos constituem um importante instrumento de análise e interpretação de um conjunto de dados. Diariamente é possível encontrar tabelas e gráficos nos mais variados veículos de comunicação (jornais, revistas, televisão, Internet), associadas a assuntos diversos do nosso dia‐a‐dia, como resultados de pesquisas de opinião, saúde e desenvolvimento humano, economia, esportes, cidadania, etc. A importância das tabelas e dos gráficos está ligada sobretudo à facilidade e rapidez na absorção e interpretação das informações por parte do leitor e também às inúmeras possibilidades de ilustração e resumo dos dados apresentados.
TABELAS
São quadros que resumem um conjunto de dados.
Título – conjunto de informações sobre o estudo. Cabeçalho –especifica o conteúdo das colunas Coluna indicadora –especifica o conteúdo das linhas Coluna numérica ‐–especifica a quantidade das linhas Linhas – retas imaginárias de dados Célula – espaço destinado a um só número Rodapé – simplesmente a fonte dos dados
Tipos de Tabelas
SÉRIE HISTÓRICA Descreve os valores da variável, discriminados por TEMPO (anos,
SÉRIE GEOGRÁFICA Descreve os valores da variável, discriminados por REGIÕES (países, cidades, bairros, ruas, layout, etc)
meses, dias, horas, etc.
SÉRIE ESPECÍFICA Descreve os valores da variável, discriminados por temas ESPECIFICOS.
SÉRIE CONJUGADA É utilizado quando temos a necessidade de apresentar em uma única tabela a variação de valores DE MAIS DE UMA VARIÁVEL, isto é, fazer de forma conjugada de duas ou mais séries. Esta série, por exemplo, é GEOGRÁFICA – HISTÓRICA
- 62 GRÁFICOS
A importância dos gráficos está ligada à facilidade e rapidez na absorção e interpretação das informações e também às inúmeras possibilidades de ilustração e resumo dos dados apresentados. Eis os mais usados:
Quantidade
Quantidade
Quantidade
Gráfico em Linha (para séries históricas) É a representação dos valores por meio de linhas. Usamos quando precisamos de uma informação rápida de um valor ao longo do tempo. ACIDENTES DO TRABALHO SÃO PAULO: 1989 ‐ 1994 10000 8658 9578 8000 7265 6325 6254 6000 5458 4000 2000 0 1989 1990 1991 1992 1993 1994 Anos FONTE: Dados fictícios ACIDENTES DO TRABALHO EM SÃO PAULO: 1989 ‐ 1991 2500 São Paulo 2000 Guarulhos 1500 Campinas Osasco 1000 Santos 500 0 1989 1990 1991 FONTE: Dados fictícios anos Gráfico em Colunas É a representação dos valores por meio de retângulos, dispostos verticalmente. Utiliza‐se muito quando necessitamos saber a quantidade de valor. QUANTIDADE DE ACIDENTES DO TRABALHO SÃO PAULO: 1989 ‐ 1994 12000 9578 10000 8658 7265 8000 6254 6325 6000 5458 4000 2000 0 1989 1990 1991 1992 1993 1994 Anos FONTE: Dados fictícios
- 63 -
Tipo
Gráfico em Barras É o mesmo conceito que o de Colunas, porém utiliza‐se sempre que os dizeres a serem inscritos são extensos. QUANTIDADE DE ACIDENTES DO TRABALHO EM SÃO PAULO ‐ POR TIPO ‐ 1989 598 Corte 3578 Queda Atrito 698 Perfuração 55 1396 Impacto 0 1000 2000 3000 4000 Quantidade FONTE: Dados fictícios Gráfico em Setores Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação de um dado no total, geralmente na forma de porcentagem.
ACIDENTES DO TRABALHO SÃO PAULO ‐ 1989
FONTE: Dados fictícios
Gráfico Polar É o gráfico ideal para representar séries temporais cíclicas, isto é, séries temporais que apresentam em seu desenvolvimento determinada periodicidade, por exemplo, o mês de janeiro a dezembro.
ACIDENTES DO TRABALHO SÃO PAULO ‐ 1989
FONTE: Dados fictícios
- 64 Gráfico de Pareto É um gráfico de colunas na qual a altura de cada barra representa os dados, porém na ordem de altura decrescente, com a coluna mais alta posicionada à esquerda. Tal posicionamento ajuda a enfatizar dados importantes e é frequentemente usado nos negócios.
Veículo Ômega Monza Gol Corsa Fusca
Quantidade (milhões) 34 30 25 22 15
FONTE: dados fictícios
Os cinco veículos mais vendidos no Brasil em janeiro de 1995 40
Quantidade (milhões)
Os cinco veículos mais vendidos no Brasil em janeiro de 1995
34 30
30
25 20
22 15
10 0
Ômega FONTE: Dados fictícios
Monza
Gol
Corsa
Fusca
Veículos
Gráfico de Dispersão É usado para representar a relação entre duas variáveis quantitativas, por meio de pontos e linhas. Aprendemos a utilizar esse gráfico quando estudamos “Correlação e Regressão”.
Investimentos versus vendas no setor da empresa X
Anos 1999 2000 2001 2002
Investimentos 500 1000 1500 2000
Vendas 1000 2000 3000 4000
FONTE: dados fictícios
Gráfico Cartograma Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas (mapas), corpo humano entre outras figuras.
Número de cada Delegacia
FONTE: SSP/SP
- 65 DISTRIBUIÇÃO DE FREQUÊNCIAS EM CLASSES
Em uma distribuição de frequência, ao se trabalhar com grandes conjuntos de dados e com valores dispersos, podemos agrupá-los em classes.
Se um conjunto de dados for muito disperso, uma representação melhor seria através do agrupamento dos dados com a construção de classes de frequência. Caso isso não ocorresse, a tabela ficaria muito extensa. Veja abaixo:
EXEMPLO
Um radar instalado na Dutra registrou a velocidade (em Km/h) de 40 veículos, indicadas abaixo: Velocidade de 40 veículos (Km/h)
70 71 73 76 80 81 83 86
90 93 95 97 97 97 99 99
100 102 103 105 105 109 109 109
110 123 115 123 115 123 115 123 117 124 117 124 121 128 121 128
Distribuição de frequência com classes
Limite inferior
i 1 2 3 4 5 6
Classes
Distribuição de frequência
Nota 70 71 73 76 80 81 83 86 90 93 95 97 99 100 102 103 105 109 110 115 117 121 123 124 128
f
1 1 1 1 1 1 1 1 1 1 1 3 2 1 1 1 2 3 1 3 2 2 4 2 2 f=40
É fácil ver que a distribuição de frequências diretamente obtida a partir desses dados é dada uma tabela razoavelmente extensa.
Velocidade (Km/h)
70 80 80 90 90 100 100 110 110 120 120 130
f
Limite superior
4 4 8 8 6 10 f=40
A distribuição em ”classes” é como se fosse uma compressão dos dados. Imagine se fizéssemos uma distribuição de frequência de todas velocidades (de 70 a 128). A tabela ficaria imensa! Por este motivo existe a distribuição de frequência com classes.
Como criar uma Distribuição de Freqüência com classes
1. Calcule a quantidade de classes (i), pela raiz da quantidade de dados. São 40 veículos. Então, 40 = 6,3 i = 6 classes.
2. Calcule a amplitude de classe (h) que é o tamanho da classe, sendo: Maior valor – Menor valor = 128 – 70 = 9,6 h=10 quantidade de classes (i) 6 Nota: o Maior valor (128) e o Menor valor (70) são obtidos da lista dos registros das velocidades dos 40 veículos.
3. Montar as classes a partir do Menor valor (70), somando com a amplitude de classe (10) até que se chegue na 6ª classe, assim: i Velocidade (Km/h) 1 70 +10 80 2... 80 +10 90 ...6 120 +10 130
TIPOS DE INTERVALOS DE CLASSE
Tipo
Representação
Dados do intervalo
Aberto
70 80
Fechado à esquerda
70 80 70 80 70 80
70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
Fechado Fechado à direita
70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80
No Brasil usa‐se o intervalo (Resolução 866/66 do IBGE). Já na literatura estrangeira utiliza‐se comumente com intervalo fechado.
CONCEITOS IMPORTANTES LIMITES DE CLASSE ‐ São os valores extremos de cada classe. No exemplo 70 80, temos que o limite inferior é 70 e o limite superior 80. AMPLITUDE TOTAL DA DISTRIBUIÇÃO (AT) – É a diferença entre o limite superior da última classe e o limite inferior da primeira classe, no exemplo 130 – 70 = 60. AMPLITUDE AMOSTRAL (AA) – É a diferença entre o valor máximo e o valor mínimo da amostra, no exemplo 128 – 70 = 58.
- 66 Abaixo vemos as distribuições de frequências absoluta f, relativa fr(%), absoluta acumulada Fa e relativa acumulada FRa(%), bem como o Histograma desta distribuição.
Distribuição de freqüência com classes f, fr(%), Fa e FRa (%)
Fr(%)
Fa
FRa(%)
10% 10% 20% 20% 15% 25%
4 8 16 24 30 40
10% 20% 40% 60% 75% 100%
100%
Quantidade de veículos
f i Velocidade (Km/h) 4 1 70 80 4 2 80 90 8 3 90 100 8 4 100 110 6 5 110 120 10 6 120 130 f=40
Resultados dos registros de um radar
12
10
10 8
8
8 6
6 4
4
4
2 0 70 80 90 100 110 120 130
Velocidade (Km/h)
OUTRAS REPRESENTAÇÕES GRÁFICAS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA
Polígono de frequência – É um gráfico em linha que representa os pontos centrais dos intervalos de classe.
Para construir este gráfico, você deve calcular o ponto central de classe (xi), que é o ponto que divide o intervalo de classe em duas partes iguais. Por exemplo, a velocidade dos veículos da 1ª classe pode ser representada por 70 + 80 = 75Km/h 2
xi 75 85 95 105 115 125
Ponto central
75Km/h
Resultados dos registros de um radar
12 Quantidade de veículos
f i Velocidade (Km/h) 4 1 70 80 4 2 80 90 8 3 90 100 8 4 100 110 6 5 110 120 10 6 120 130 f=40
70 80
10 8 6 4 2
0 70 75 80 85 90 95 100 105 110 115
A construção de um polígono de frequências é muito simples. Primeiro, construímos um histograma; depois marcamos no “telhado” de cada coluna o ponto central e unimos sequencialmente esses pontos.
120
125 130
Velocidade (Km/h)
Ogiva – (pronuncia‐se o’jiva). Conhecida também por polígono de frequência acumulada. É um gráfico em linha que representa as freqüências acumuladas (Fa), levantada nos pontos correspondentes aos limites superiores dos intervalos de classe. Para construí‐la, você deve elaborar o histograma de freqüência f em uma escala menor, considerando o último valor a freqüência acumulada da última classe, no caso, 40.
Fa 4 8 16 24 30 40
Quantidade de veículos
f i Velocidade (Km/h) 4 1 70 80 4 2 80 90 8 3 90 100 8 4 100 110 6 5 110 120 10 6 120 130 f=40
40 35 30 25 20 15 10 5 0
Resultados dos registros de um radar
40 30
24 16
4
4 4
8 8
8
10 6
70 80 90 100 110 120 130
Velocidade (Km/h)
- 67
MEDIDAS DE POSIÇÃO E ORDENAMENTO
O que dizer se um professor quer saber sobre as notas dos 110 alunos de uma disciplina? Poderíamos, talvez, utilizar para resposta uma tabela com as frequências das notas. Porém, o professor gostaria de uma resposta rápida, que sintetize a informação que se tem, e não uma distribuição de frequência das notas coletadas.
Para resumir a quantidade de informação contida em um conjunto de dados, utilizamos, em estatística, medidas que descrevem, POR MEIO DE UM SÓ NÚMERO, características desses dados. Veja exemplo abaixo.
NOTAS DE ESTATÍSTICA DE 110 ALUNOS DA ESCOLA A 5.6
8.3
4.5
8.7
3.9
9
5.5
7.9
9.5
10
9.6
6.6
5.3
3
9.5
3.9
9
5.6
7
5.9
7
8.9
2
8.7
9
3
8
6.7
4.2
6.5
6.5
4.6
9.5
5.3
3.9
9
3
8.8
9
8.9
7.1
6.5
3.9
4.9
9.4
5.3
9.5
2
5.3
7.5
9.2
9.8
9.5
5.9
5.5
5
7
8.3
5.6
9
6.1
5.6
4.9
6.5
9
9.6
7.5
7
9
4.5
4.2
8.9
9.6
9.8
8
6.5
7.9
2
5
5.3
7.3
8
9
5.6
1
9.8
4
9.5
3.6
5
8.6
4.2
9.6
8.9
5.9
4.2
6
5.3
8
2.8
9.2
9
9.8
3.9
8
9.5
3.3
8.4
5.3
4.5
Para uma conclusão rápida, qual foi o desempenho desses alunos? Isto pode ser respondido com as medidas abaixo.
Medidas resumo
Valor
Interpretação
Média
6,5
Valor que representa o ponto de equilíbrio das notas (como uma gangorra).
Mediana
7,0
50% dos alunos tiraram abaixo de 7,0.
Moda
9,0
Nota que mais se repetiu.
Desvio padrão ‐ DP
2,3
A maioria das notas está variando entre ±2,3 em torno da média 6,5 (4,2‐‐‐‐8,8)
Coeficiente variação
34%
Há variação de 34% das notas em torno da média (complementa o DP).
1º Quartil
5,0
25% dos alunos tiraram abaixo de 5,0.
3º Quartil
9,0
75% dos alunos tiraram abaixo de 9,0.
Através dessas informações é possível analisar o desempenho desses alunos.
- 68 MEDIDAS DE POSIÇÃO (MÉDIA, MEDIANA E MODA)
São medidas que utilizamos para obter um número que represente o valor central de um conjunto de dados. As Medidas de Tendência Central mais utilizadas são: Média, Mediana e Moda.
MÉDIA
MÉDIA SIMPLES - É uma medida que representa um valor típico ou normal num conjunto de dados.
A média simples serve como um “ponto de equilíbrio” em um conjunto de dados (como o ponto de apoio de uma gangorra). Cada dado tem igual importância e peso. Sofre a influência de todos os dados.
A Média simples é obtida pela seguinte equação:
x = x → soma dos valores dos dados n → quantidade de dados
A Média é representada por (lê‐se “x barra”)
x
EXEMPLO. Supondo que uma escola adote como critério de aprovação a Média 7,0 e, considerando as quatro notas de João e Maria durante o ano, informe se foram aprovados.
Notas de João: 3,5 | 6,0 | 9,5 | 9,0 |
x = x 3,5 + 6,0 + 9,5 + 9,0
n 4
6.0
6.0
9.0
7,0
8.0 Notas
Média das notas de João 9.5
10.0
Média de João
3.5
4.0 2.0
x = 7,0 → aprovado
0.0 1º Bim 2º Bim Média 3º Bim 4º Bim Bimestres
MÉDIA PONDERADA. Semelhante a Média simples, porém, atribuindo-se a cada dado um peso que retrate a sua importância.
O termo “ponderação” é sinônimo de peso, importância, relevância. Sugere, então, a atribuição de um peso a um determinado dado. Em alguns casos, os valores variam em grau de importância, de modo que podemos querer ponderá‐los apropriadamente. É calculada multiplicando‐se um peso por cada valor, fazendo com que alguns valores influenciem mais fortemente a média do que outros.
A Média ponderada é obtida pela seguinte equação:
Vamos representar a Média ponderada por
= (x . p) → soma dos valores . pesos p → soma dos pesos
xp
xp
EXEMPLO Supondo que uma escola adote como critério de aprovação a Média 7,0, sendo que as provas bimestrais são ponderadas com pesos 1, 2, 3 e 4, respectivamente para o 1º bim, 2º bim, 3º bim e 4º bim. Considerando as notas de João (na ordem bimestral crescente), informe se foi aprovado. Média ponderada das notas de João
Notas de João: | 9,0 | 8,0 | 6,0 | 5,0
p
xp
= (9,0 . 1) + (8,0 . 2) + (6,0 . 3) + (5,0 . 4) 1+2+3+4
x p = 6,3 → reprovado
Nota. Em uma média simples ele seria aprovado por 7,0.
Notas e pesos
x p = (x . p)
10,0 9,0
8,0
8,0
6,3
6,0
Média ponderada 5,0
6,0
4,0 2,0 1
2
1º Bim
2º Bim
3
4
0,0 Média 3º Bim Bimestres
4º Bim
A atribuição de pesos visa fazer com que certos valores tenham mais influência no resultado do que outros. Também pode ser aplicado em cálculos de índices de inflação, atribuindo pesos para setor de vestuário, alimentação, etc.
- 69 MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA – aplica-se quando não se tem a lista original dos dados Quando trabalhamos com uma distribuição de frequência, não sabemos os valores exatos que caem em determinada classe. Para tornar possíveis os cálculos, consideramos que, em cada classe, todos os valores amostrais sejam iguais ao ponto central de classe. Por exemplo, considere o intervalo de classe 70 80, com uma frequência de 4. Admitimos que todos os 4 valores sejam iguais a 75 (o ponto central de classe). Com o total de 75 repetido 4 vezes, temos um total de 75 x 4 = 300. Podemos, então, somar esses produtos obtidos de cada classe para encontrar o total de todos os valores, os quais, então, dividimos pela quantidade de dados.
É importante salientar que a distribuição de frequência resulta em uma aproximação da média porque não se baseia na lista original exata dos valores amostrais.
CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA COM INTERVALO DE CLASSE Ponto central de classe Procedimento: f x f . x i Velocidade (Km/h) 1. Multiplicar as frequências f pelos pontos centrais 1 4 x = 75 300 70 80 de classe x e adicionar os produtos. 2. Somar as frequências f; 2 4 85 340 80 90 3. Somar os produtos (f.x); 3 8 95 760 90 100 4. Aplicar a fórmula abaixo: 4 100 110 8 105 840 5 110 120 6 115 690 x = (f.x) → 4180 = 104,5 Km/h 6 120 130 10 125 1250 f 40 ‐ f=40 (f.x) = 4180 Média a partir de um HISTOGRAMA COM INTERVALOS DE CLASSE:
R e s u lta d o s d o s re g is tro s d e u m ra d a r
Quantidade de veículos
12
10
10
(4*75)+(4*85) ...
8 6
4
4
+
x
2
8
8 6
Não é necessário montar tabela. Veja na figura ao lado que basta multiplicar a freqüência pelo ponto médio e adicionar os produtos. Depois, divida pela soma das freqüências.
(4*75)+(4*85)+(8*95)+(8*105)+(6*115)+(10*125) 4+4+8+8+6+10
4
x
x = (f.x) → 4180 = 104,5 Km/h f 40
0
75 85 95 105 115 125 70 80 90 100 110 120 130
Velocidade (Km/h)
CALCULANDO A MÉDIA DE DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALO DE CLASSE
f
Nota (x)
f . x
(nº de alunos)
X = 5
4,0 5,0 6,0 7,0 8,0 9,0
3 2 3 2 10 f=25
20 15 12 21 16 90 (f.x) = 174
Média a partir de um HISTOGRAMA SEM INTERVALO DE CLASSE Desempenho dos alunos na prova
Número de alunos
Quando a distribuição não tem agrupamento de classes, consideraremos as frequências como sendo os pesos dos elementos correspondentes:
(5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0) 5+3+2+3+2+10
Multiplique a freqüência por “x” (notas) e adicione os produtos. Depois, divida pela soma das freqüências.
10
(5*4,0)+(3*5,0)+(2*6,0)+(3*7,0)+(2*8,0)+(10*9,0) 5+3+2+3+2+10
5 3
x 4.0
5.0
2
x =(f.x) → 174 = 6,96 f 25
12 10 8 6 4 2 0
3
6.0 7.0 Nota
2
8.0
9.0
x =(f.x) → 174 = 6,96 f 25
- 70 MEDIANA
Medida que representa o valor que está no MEIO de um conjunto de dados.
Uma desvantagem da média simples é que ela é sensível a qualquer valor, de modo que um valor excepcional (alto ou baixo) pode afetar drasticamente a média. A Mediana supera grandemente essa desvantagem, pois não é afetada por valores extremos, de tal modo que você pode utilizar a mediana quando estão presentes valores extremos.
0% 50% 100% Mediana
Como achar a mediana de um conjunto de dados
As posições dos termos centrais são dadas por:
e P2 = a que sucede P1
= 5 → 5ª posição
0 1 2
Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785, 995. n=10 P1
P
1 2 9
Ex.: 12, 78, 69, 75, 80, 71, 82, 73, 785. n=9
n 2
Para quantidade PAR de valores
P1
A Posição do termo central é dada por:
P
1 2 n
Para quantidade ÍMPAR de valores
= 5ª posição e P2 = 6ª posição
A Md é o valor entre a 5º e 6ª posição. Ordenando os dados, temos:
A Md é o valor da 5º posição. Ordenando os dados, temos:
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª 10ª
Mediana
Mediana
= 76,5
2
A Md é a Média dos dois termos centrais.
8 7
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª
5 7
12, 69, 71, 73, 75, 78 80, 82, 785, 995 d M
12, 69, 71, 73, 75 ,78, 80, 82, 785
MEDIANA de uma distribuição de frequência e Histograma SEM INTERVALOS DE CLASSE
1 5 2 2
Da 1ª até a 4ª 4 Da 5ª até a 7ª 7 Da 8ª até a 9ª 9 Da 10ª até a 12ª 12 14 Da 13ª até a 14ª 25 Da 15ª até a 25ª
→
= 13ª
Os dados já estão ordenados. Então a Md é o valor da 13ª posição. Através da Fa fica fácil identificar a posição central:
Número de alunos
f = n = 25 → ímpar
Observações
1 2 n
4,0 5,0 6,0 7,0 8,0 9,0
Fa
P
f 4 3 2 3 2 11
Nota
Desempenho dos alunos na prova
12 10 8 6 4 2 0
11
Fa 13ª 4
3
4.0
Então, a nota Md = 8,0
3
2
5.0
6.0
7.0
2
8.0
9.0
Nota Md = 8,0
f=25
MEDIANA de uma distribuição de frequência e Histograma COM INTERVALOS DE CLASSE
n
Acumule Fa e ache a posição da Md
f Velocidades i 4 1 70 80 4 2 80 90 8 3 90 100 8 4 100 110 6 5 110 120 6 120 130 10 f=40
Fa
4 8 16 24 30 40
20ª
Quantidade de veículos
0
20ª 8
l inf = limite inferior da classe mediana Faant = Fa da classe anterior h = amplitude do intervalo de classe f = freqüência da classe mediana
10
8
f = 8 4
Resultados dos registros de um radar Fa
Fa ant = 16 (4+4+8)
n 2 ‐ Fa ant * h Md l inf f
12 10 8 6 4 2
40
Independente se n é ímpar ou par usa‐se a equação /2. Então, /2 = 20 A Md está na 20ª posição e será algum valor da classe mediana 100 110. A partir da equação abaixo podemos achar uma aproximação da Md. Resolvendo a equação, temos:
40 2 ‐ 16 * 10 Md 100 8 Md = 105 Km/h, aproximadamente
O total das frequências é 40. Então, a Md será 40/2 = 20ª posição. Observe pelo Fa que a classe mediana é 100 110. Também é possível determinar l inf, Fa ant, h e f. Então, aplicando a equação, temos:
6
4
← h → 10 l inf 70 80 90 100 110 120 130
Velocidade (Km/h)
40 2 ‐ 16 * 10 = 105 km/h, aproximadamente Md 100 8
- 71 NOTA SOBRE A MEDIANA. A mediana é menos utilizada do que a média simples. A mediana pode ser aplicada quando existem valores discrepantes em um conjunto de dados. Por exemplo, se a renda per capita de sete famílias fosse: $240; $370; $410; $520; $630; $680 e $820, a mediana seria $520 e a média $524. Essas duas medidas poderiam representar este conjunto de dados. Mas se a renda de sete famílias fosse: $240; $370; $410; $520; $630; $680 e $10.000, o valor da mediana manter‐se‐ia o mesmo, enquanto a média simples passaria a ser $1.836, pois foi influenciada pelo valor discrepante ($10.000), que não é uma medida ideal para representar este conjunto de dados. A medida ideal seria a mediana. Note que os valores discrepantes tem, pois, muito menor influência sobre a mediana do que sobre a média.
Em relação à mediana na distribuição de freqüência com intervalos de classe, admite‐se que as velocidades dos veículos se distribuem 40 continuamente. Nesse caso, a mediana é a velocidade para o qual a metade da freqüência total /2 = 20 fica situada abaixo e a outra acima dele. Ora, a soma das três primeiras freqüências de classe é 4+4+8 = 16. Então, para obter a 20ª velocidade desejada, são necessários mais 4 4 dos 8 casos existentes na 4ª classe. Como o quarto intervalo de classe, 100 110, a mediana situa‐se a 4/8 de distância, e é: 100 + /8 (110 – 100) = 105 km/h. Com a equação fica mais fácil encontrar a mediana pois não exige este tipo de raciocínio.
MODA Medida que representa o valor que mais se REPETE em um conjunto de dados. Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante! Em estatística a moda é o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes em uma série de dados. A moda não é necessariamente única, ao contrário da média simples ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas.
Exemplos:
A série {1, 3, 5, 5, 5, 6, 6, 7} apresenta moda = 5, pois é o número que mais se repete. A série {1, 3, 5, 5, 6, 6, 7, 8} apresenta duas modas (Bimodal): 5 e 6, pois são os que mais se repetem. A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (Polimodal): 5, 6 e 7 A série {1, 3, 2, 5, 8, 7, 9, 10} não apresenta moda = amodal, pois nenhum número se repete.
MODA de uma distribuição de freqüência e Histograma SEM INTERVALOS DE CLASSE
5,0 6,0 6,0 7,0 7,0 7,0 8,0
8,0 9,0 9,0 9,0 9,0 9,0 9,0
9,0 9,0 9,0 9,0
A Moda será a nota 9,0, pois é a que mais se repete no conjunto de dados
Nota 4,0 5,0 6,0 7,0 8,0 9,0
Desempenho dos alunos na prova
f (nº de alunos)
Número de alunos
Notas dos alunos
4,0 4,0 4,0 4,0 4,0 5,0 5,0
5 3 2 3 2 10 f=25
12
10
10
Moda Nota 9,0
8 5
6
3
4 2
2
3
2
0 4,0
5,0
6,0 7,0 Nota
8,0
9,0
MODA de uma distribuição de frequência e Histograma COM INTERVALOS DE CLASSE 120+130 = 125Km/h
a) Moda Bruta
i 1 2 3 4 5 6
Velocidade (Km/h)
70 80 80 90 90 100 100 110 110 120 120 130
f 4 4 8 8 6 10
f=40
A Moda Bruta será o ponto médio de classe modal, que é a classe que apresenta a maior frequência. Então: Mo = 120 + 130 = 125Km/h 2
Classe modal (tem maior frequência)
12 Quantidade de veículos
2 Resultados dos registros de um radar
10 8
8
10
8 6
6 4
4
4
2 0
70 80 90 100 110 120 130
Velocidade (Km/h)
NOTAS SOBRE A MODA. Na distribuição de freqüência em classes, o método utilizado para encontrar a moda por meio do ponto médio de classe é chamado de moda bruta, e é apenas uma aproximação pois não foi baseada na lista original de dados. Existem outros métodos para encontrar a Moda de uma distribuição de freqüência com intervalo de classe: Método de Czuber, Método de King e Método de Pearson, normalmente exigidos em concursos públicos.
- 72 b) Moda de czuber
D1 Mo Czuber *h D1 D 2
limite inferior da classe modal D1 = f* – f(ant) D2 = f* – f(post) h = amplitude da classe modal
f* = frequência da classe modal f(ant) = frequência da classe anterior à classe modal f(post) = frequência da classe posterior à classe modal
Exemplo de cálculo da Moda de Czuber (pela Distribuição de Freqüência e pelo Histograma) Registro das velocidades de veículos em uma rodovia i Velocidade (Km/h) f
1 4 70 80 2 4 80 90 3 8 90 100 4 100 110 8 5 110 120 6 6 120 130 10 f=40
Classe modal (tem maior frequência)
Resultados dos registros de um radar
12 Quantidade de veículos
10 8
8
8
f* 10
f(ant)
f(post)
6
6 4
4
4
h*
2 0
70 80 90 100 110 120 130
Classe modal
Velocidade (Km/h)
(10 - 6)
Mo l
D1 4 * h → Mo 120 * 10 Mo 122,85 D1 D 2 4 10 (10 - 6)
(10 - 0)
Nota: Como não existe frequência simples da classe posterior à classe modal, então f‐ f(post) = 10 ‐ 0.
- FUNDAMENTOS DA EQUAÇÃO DE CZUBER – Pode‐se determinar graficamente a posição da Moda no histograma representativo de uma distribuição de frequências. O método descrito abaixo é o equivalente geométrico da equação de Czuber.
1º ‐ A partir dos vértices superiores do retângulo correspondente à classe modal (A e B), traçamos os seguimentos concorrentes AC e BD, ligando cada um deles ao vértice superior adjacente do retângulo correspondente a uma classe vizinha, conforme ilustrado na figura acima. 2º ‐ A partir da interseção dos segmentos AC e BD, baixamos uma perpendicular ao eixo horizontal, determinando o ponto que indica a Moda, que é 122,85.
- 73 RELAÇÃO
ENTRE MÉDIA, MEDIANA E MODA.
Pelo formato da distribuição dos dados, sempre existirá uma relação empírica (baseado na experiência) entre a média, mediana e a moda. Através dessa relação podemos saber, aproximadamente, onde se encontram essas medidas, sem necessidade de cálculos. Quando a Média, Mediana e Moda se coincidem, chamamos a distribuição dos dados de Simétrica ou Normal. SIMÉTRICA ou NORMAL ou FORMA DE SINO Média = mediana = moda
Resultados dos registros de um radar
10 Quantidade de veículos
8
7
6 4
4
Quando a distribuição tem a forma de sino (linha tracejada), a quantidade de dados vai aumentando, atinge um pico, e depois Média diminui. Se dividíssemos em duas metades, a partir do centro, Mediana note que os dois lados seriam iguais. O calculo abaixo confirma a Moda afirmativa que numa distribuição normal a média, mediana e moda se coincidem.
Média = 70(3) + 80(4) + 90(7) + 100(4) + 110(3) = 90 Km/h 3+4+7+4+3 Mediana = 90 Km/h 90=90=90 Moda = 90 Km/h
4
3
3
2 0 70 80 90 100 110
Velocidade (Km/h)
Quantidade de veículos
Quando a Média, Mediana e Moda não se coincidem, chamamos a distribuição dos dados de assimétrica. Assimétrica à esquerda (ou negativa) Média < mediana < moda Neste tipo de distribuição, a média, mediana e a moda estarão Resultados dos registros aproximadamente conforme gráfico ao lado. A média será menor 12 de um radar Mediana que a mediana e a moda. O cálculo abaixo confirma a afirmativa: Moda 10 9 Média 8 Média = 70(1) + 80(3) + 90(6) + 100(9) + 110(2) = 94 Km/h 6 1+3+6+9+2 6 4 3 Mediana = 100 Km/h 2 Me Md Mo 2 1 94 < 100 ≤ 100 0 Moda = 100 Km/h 70 80 90 100 110
Velocidade (Km/h)
Assimétrica à direita (ou positiva)
Média > mediana > moda
10 Mediana Moda 8
Média = 70(2) + 80(9) + 90(6) + 100(3) + 110(1) = 86Km/h 2+9+6+3+1 Mediana = 80 Km/h Me Mo Md 86 > 80 ≥ 80 Moda = 80 Km/h
Média
9 6
6 4 2
Neste tipo de distribuição, a média, mediana e a moda estarão aproximadamente conforme gráfico ao lado. A média será maior que a mediana e a moda. O cálculo abaixo confirma a afirmativa:
Resultados dos registros de um radar
12 Quantidade de veículos
3 2 1
0
70 80 90 100 110 Velocidade (Km/h)
- 74 MEDIDAS DE ORDENAMENTO (OU SEPARATRIZES). São medidas que "separam" o conjunto de dados em um certo número de partes iguais. As medidas usadas são a Mediana, o Quartil, Decil e o Percentil. A mediana já conhecemos. Estudaremos as outras medidas.
QUARTIL (4 PARTES)
0% 25% 50% 75% 100%
Divide um conjunto de dados em quatro |----------|---------|----------|---------| partes iguais. Precisamos, portanto, de 3 Q1 Q2 Q3 2º quartil 3º quartil 1º quartil quartis (Q1 , Q2 e Q3 ) para dividir a série Coincide com a deixa 75% dos dados deixa 25% dos dados em quatro partes iguais. mediana. abaixo dele. abaixo dele.
O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis. Na realidade serão calculadas "3 medianas" em uma mesma série.
Determine Q1, Q2 e Q3. dos salários de 9 empregados da uma empresa, abaixo 1º 2º Q1 3º 4º 5º 6º 7º Q3 8º 9º
$500 $550 | $600 $650 $700 $750 $800 | $850 $900 $575 Q2 $825 Q1 será a média da 2ª e 3ª posição Md Q3 será a média da 7ª e 8ª posição
1º quartil Q1 = =
= 11,5 ≈ 12ª posição = 95Km/h
Interpretação: 25% dos veículos tiveram velocidades abaixo de 95 Km/h
← 3º quartil
) =(
1 5 4 4
3º quartil Q3 = (
3
1 n 4
← 1º quartil
3
Fa 4 8 16 24 30 45
1 5 4 4
Velocidades f 85 4 90 4 95 8 100 8 105 6 110 15 f=45
i 1 2 3 4 5 6
1 4 n
QUARTIL de uma distribuição de freqüência SEM INTERVALOS DE CLASSE
) = 34,5 ≈ 35ª posição =110Km/h
Interpretação: 75% dos veículos tiveram velocidades abaixo de 110 Km/h
QUARTIL de uma distribuição de freqüência COM INTERVALOS DE CLASSE
por por
n 3 4
n 2
n 4
n 2
Usa‐se a mesma técnica do cálculo da mediana, bastando adaptar a sua equação, conforme mostrado abaixo. 1º quartil 3º quartil
Acumule Fa e ache as posições Q1 e Q3.
i Velocidades f 1 4 70 80 2 4 80 90 3 90 100 8 4 100 110 8 5 110 120 6 6 120 130 10 f=40
Fa 4 8 16 24 30 40
← 1º quartil
← 3º quartil
1º quartil Q1
3º quartil Q3
Independente se n é ímpar ou par usa‐se somente a Independente se n é ímpar ou par usa‐se somente a n
40
3n
3*40
equação /4. Então, /4 = 10. O Q1 está na 10ª posição equação /4. Então, /4 = 30. O Q3 está na 30ª e será algum valor da classe Q1 90 100. Logo: posição e será algum valor da classe Q3 110 120. Logo:
n 4 ‐ Fa ant * h Q1 l inf f l inf = limite inferior da classe Q1 Faant = Fa da classe anterior H = amplitude intervalo classe f = freqüência da classe Q1
Resolvendo a equação:
40 4 ‐ 8 *10 Q1 90 8 Q1 = 92,5 Km/h
Interpretação: aproximadamente 25% dos veículos registrados tiveram velocidades abaixo de 92,5 Km/h
3n 4 ‐ Fa ant * h Q3 l inf f l inf = limite inferior classe Q3 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe Q3
Resolvendo a equação:
3*40 4 ‐ 24 *10 Q3 110 6 Q3 = 120 Km/h
Interpretação: aproximadamente 75% dos veículos registrados tiveram velocidades abaixo de 120 Km/h
- 75 DECIL (10 PARTES)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
n 0 D 1
n 2
Divide um conjunto de dados em dez partes |---|---|---|---|---|---|---|---|---|---| D1 D2 D3 D4 D5 D6 D7 D8 D9 iguais, como mostrado ao lado. Coincide com a mediana. DECIL de uma distribuição de freqüência i Velocidades f Fa 1 4 4 70 80 Usa‐se a mesma técnica do cálculo da mediana, 2 4 8 bastando adaptar a sua equação, conforme abaixo: 80 90 3 90 100 8 16 ← Classe D3 D = decil procurado 4 100 110 8 24 por n = quantidade de dados 5 110 120 6 30 6 120 130 10 40 ← Classe D8 Acumule Fa e ache as posições. f=40
Ache o 3º Decil (D3) da distribuição de frequência
Dn
Ache o 8º Decil (D8) da distribuição de frequência
3*40
Dn
8*40
Usando /10 temos /10 = 12. O D3 está na 12ª Usando a equação /10 temos /10 = 32. O D8 está na posição e será algum valor da classe D3 90 100: 32ª posição e será algum valor da classe D8 120 130:
Dn 10 ‐ Fa ant * h D3 l inf f
l inf = limite inferior da classe D4 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe D4
Dn 10 ‐ Fa ant * h D8 l inf f
Resolvendo a equação:
3* 40 10 ‐ 8 *10 D3 90 8
l inf = limite inferior da classe D8 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe D8
D3 = 95 Km/h
Resolvendo a equação:
8*40 10 ‐ 30 *10 D8 120 10 D8 = 122 Km/h
Interpretação: aproximadamente 30% dos veículos registrados tiveram velocidades abaixo de 95 Km/h
Interpretação: aproximadamente 80% dos veículos registrados tiveram velocidades abaixo de 122 Km/h.
PERCENTIL (100 PARTES)
0% 5% 10% ... 17% ... 33% ... 42% 50% 57% 63% 70% 80% 93% 100%
Divide um conjunto de dados em cem partes iguais, como mostrado ao lado.
|-|-|---|---|---|---|--|--|--|---|---|---| P5 P1 0 P17 P33 P42 P50 P57 P63 P70 P80 P93
PERCENTIL de uma distribuição de freqüência
i Velocidades f 1 4 70 80 2 4 80 90 3 90 100 8 4 100 110 8 5 110 120 6 6 120 130 10 f=40
0 n 0 P 1
n 2
Usa‐se a mesma técnica do cálculo da mediana, bastando adaptar a sua equação, conforme abaixo. P = percentil procurado por n = quantidade de dados
Acumule Fa e ache as posições.
Fa 4 8 16 24 30 40
← Classe P27 ← Classe P72
Ache o 27º Percentil (P27) da distribuição de frequência
Pn
Ache o 72º Percentil (P72) da distribuição de frequência
27*40
Pn
72*40
Usando /100 temos /100 = 10,8 ≈ 11. O P27 está na Usando /100 temos /100 = 28,8 ≈ 29. O P72 está na 11ª posição e será algum valor da classe P27 90 100: 29ª posição e será algum valor da classe P29 110 120:
Pn 100 ‐ Fa ant * h P27 l inf f
l inf = limite inferior classe P27 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe P27
Resolvendo a equação: 27* 40 100 ‐ 8 * 10 P27 90 8
P27 = 93,5 Km/h
Interpretação: aproximadamente 27% dos veículos registrados tiveram velocidades abaixo de 93,5 Km/h.
Pn 100 ‐ Fa ant * h P72 l inf f
l inf = limite inferior classe P72 Faant = Fa da classe anterior h = amplitude intervalo classe f = freqüência da classe P72
Resolvendo a equação: 72* 40 100 ‐ 24 *10 D8 110 6 P72 = 118 Km/h
Interpretação: aproximadamente 72% dos veículos registrados tiveram velocidades abaixo de 118 Km/h.
- 76 VOCABULÁRIO BÁSICO DE ESTATÍSTICA
O vocabulário utilizado em estudos estatísticos teve sua origem nos primeiros estudos feitos pela humanidade e que eram relativos à demografia (estudo estatístico das populações). Por isso a Estatística emprega termos próprios dessa área de conhecimento, mas com um sentido diferenciado. Assim, para dar prosseguimento, é de extrema importância destacar alguns termos utilizados no jargão estatístico.
VARIÁVEL – É o termo usado para aquilo que você está pesquisando, estudando, analisando. ,
No estudo representado no gráfico abaixo a variável é o acidente do trabalho. Utilizada como um adjetivo do vocabulário do dia‐a‐dia, variável sugere que alguma coisa se modifica ou varia.
1.796.671 1.743.825
2.000.000 1.750.000
Involução da QUANTIDADE de ACIDENTES DO TRABALHO no Brasil - 1970 a 2005.
1.551.461 1.464.211
1.504.723
1.500.000 1.220.111
1.178.472
1.250.000
1.207.859
VARIÁVEL 991.581
961.575
1.000.000 693.572
750.000
532.514 388.304 395.455414.341 363.868
500.000
465.700 491.711 393.071 399.077 340.251
250.000 0 1970
1972
1974
1976
1978
FONTE: Revista Proteção
1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2001
2002
2003
2004
2005
Anos
São exemplos de Variáveis Doenças, Sexo, Estaturas, Peso, Idade, Renda, Natalidade, Mortalidade, PIB, Inflação, Exportações brasileiras, Produção de café, Alimentação, Peças produzidas por hora, Paradas de produção no mês, Rotatividade de estoque por ano, Poluição, Clima na região sudeste, Consumo de energia no mês, Vendas mensais de uma empresa, Produção diária de automóveis etc.
EXEMPLO DE APLICAÇÃO: A associação dos moradores de um bairro queria traçar um perfil dos frequentadores de um parque ali situado. Uma equipe de pesquisa elaborou questões a fim de reunir as informações procuradas. Numa manhã de quarta‐ feira, 6 pessoas foram entrevistadas e cada uma respondeu a questões para identificar idade, número de vezes que freqüenta o parque por semana, estado civil, meio de transporte utilizado para chegar ao parque, tempo de permanência no parque e renda familiar mensal. Os resultados são mostrados na tabela a seguir: Variáveis
Cada um dos aspectos investigados — os quais permitirão fazer a análise desejada — é denominado variável.
- 77 TIPOS DE VARIÁVEIS
Há, pois, uma divisão principal para as variáveis estatísticas, que consiste em considerá‐las como Variáveis Quantitativas (discretas ou contínuas) e Variáveis Qualitativas (nominal ou ordinal). Esta divisão é de facílima compreensão! Inteiros
Quando as variáveis forem em números inteiros, obtido por contagem:
DISCRETA
0 1 2 3 4 55 77 987 etc.
Números
Ex.: Idade (anos), gols de futebol, etc
QUANTITATIVA Não inteiros
Quando as variáveis forem em números não inteiros, assumem qualquer valor:
CONTÍNUA
0,2 1,12 3,77 4,768 etc.
Ex.: Altura (cm), peso (kg), tempo (hh:mm) VARIÁVEL Ordenável
ORDINAL Nomes
Quando é possível ordenas as categorias. Pesquisa de alimentação: [1] Ótimo [2] Bom [3] Regular [4] ruim Grau de instrução de funcionários de uma empresa 1º grau 2º grau Superior Mestrado Doutorado
QUALITATIVA Não é ordenável
NOMINAL
Quando não é possível ordenar as categorias. Ex.: sexo (masculino ou feminino), Cor dos olhos (preto ou verde), campo de estudo (Engenharia, Direito etc) Não é possível estabelecer uma ordem, uma gradação, o mais ou menos importante, prioritário etc.
Então, os tipos de Variáveis da pesquisa do parque serão: Qualitativa nominal
Quantitativa discreta
Quantitativa contínua
PARA LEITURA Se a dúvida persiste, você pode observar no quadro abaixo mais esclarecimentos sobre esses conceitos. Tipo de VARIÁVEL Quantitativa (Em números)
Discreta (números inteiros) (contagem)
Contínua (Números não inteiros) (medição) Qualitativa (nomes, atributos)
Resposta fornecida à pesquisa Será Quantitativa a variável para a qual se possa atribuir um valor numérico. Se a resposta fornecida à pesquisa estiver expressa por um número, então a variável é quantitativa. Por exemplo: quantos livros você lê por ano? A resposta é um número? Então, variável quantitativa. Quantas pessoas moram em sua casa? A resposta é um número? Então, novamente, variável quantitativa. No caso do estudo “ACIDENTE DO TRABALHO, é uma variável quantitativa, pois estudamos a quantidade de acidentes no período de 1970 a 2005 Variável Quantitativa Discreta é a variável quantitativa que assume somente números inteiros. Resulta, geralmente, de contagem. Esta variável não pode assumir qualquer valor, dentro de um intervalo de valores de resultados possíveis. Por exemplo, se eu pergunto quantos irmãos você tem, a resposta jamais poderia ser “tenho 3,75 irmãos”, ou “tenho 4,8 irmãos”, ou seja, a resposta não poderia assumir todos os valores de um intervalo! Este acima é o conceito formal de variável discreta! O conceito para memorizar é o seguinte: aquela variável obtida por meio de uma contagem. Em outras palavras: a variável discreta você conta!. Exemplos: quantas pessoas moram na sua casa? Quantos livros você tem? Quantos carros você tem? Se, para responder à pergunta, você faz uma contagem, então está diante de uma variável quantitativa discreta. Variável Quantitativa Contínua é aquela que pode assumir qualquer valor dentro de um intervalo de resultados possíveis. Se eu pergunto quantos quilos você pesa, a resposta pode ser 65,35kg. Se eu pergunto qual a temperatura na cidade hoje, a resposta pode ser 27,35°C. Para facilitar a memorização, basta lembrar que a variável quantitativa contínua pode ser obtida por uma medição, ou seja, a variável contínua você mede! Exemplos: peso, altura, duração de tempo para resolução de uma prova, pressão, temperatura etc. Se a pergunta é “qual a sua cor preferida?”, logicamente a resposta não será um número, daí estaremos tratando de uma variável qualitativa, ou seja, aquela para a qual não se atribui um valor numérico. Exemplos: Sexo: masculino ou feminino
- 78 POPULAÇÃO E AMOSTRA Quando você quer saber se a sopa ficou boa, o que você faz? Mexe a panela, retira um pouco com uma colher e prova. Depois tira uma conclusão sobre todo o conteúdo da panela sem, na verdade, ter provado tudo. Portanto, é possível ter uma idéia de como a sopa está sem ter que comer tudo. Isso é o que se faz em estatística. A estatística deixou de ser a simples catalogação de dados numéricos e se tornou o estudo de como chegar a conclusões sobre o todo (população), partindo da observação e análise de partes desse todo (amostra). Essa é sua maior riqueza. Assim, podemos conceituar população e amostra como:
POPULAÇÃO É UM CONJUNTO DE TODOS OS ELEMENTOS EM ESTUDO. AMOSTRA É UMA PARTE DA POPULAÇÃO (ou subconjunto). Podemos visualizar o conceito de população e amostra na figura ao lado. Quando pesquisamos toda a população, damos o nome de censo.
A precisão depende do tamanho da amostra, e quanto maior é o tamanho amostral, maior será a precisão das informações.
AMOSTRA (uma parte da população)
“n”
POPULAÇÃO (todos os elementos em estudo)
“N”
N é designado para População n é designado para Amostra Muitas vezes quando queremos fazer um estudo estatístico, não é possível analisar toda a população envolvida com o fato que pretendemos investigar, como exemplo o sangue de uma pessoa ou a poluição de um rio. É impossível o teste do todo. Há situações também em que é inviável o estudo da população, por exemplo, a pesquisa com todos os torcedores em um estádio de futebol durante uma partida. Nesses casos, o estatístico recorre a uma amostra que, basicamente, constitui uma redução da população a dimensões menores, sem perda das características essenciais.
Os resultados fundamentados em uma amostra não serão exatamente os mesmos que você encontraria se estudasse toda a população, pois, quando você retira uma amostra, você não obtém informações a respeito de todos em uma dada população. Portanto, é importante entender que os resultados da amostra fornecem somente estimativas dos valores das características populacionais. Com métodos de amostragens apropriados, os resultados da amostra produzirão “boas” estimativas da população, ou seja, um estudo bem feito não elimina o erro, mas limita‐o a uma margem, procurando torná‐la o menor possível. Quando aprendemos estatística inferencial, também aprendemos técnicas para controlar esses erros de amostragem. 4 razões para selecionar uma amostra O número de elementos em uma população é muito grande; Demanda menos tempo do que selecionar todos os itens de uma população; É menos dispendioso (caro) do que selecionar todos os itens de uma população; Uma análise amostral é menos cansativa e mais prática do que uma análise da população inteira.
- 79 São exemplos de População e Amostra: MEDICINA. Pretende‐se estudar o efeito de um novo medicamento para curar determinada doença. É selecionado um grupo de 50 doentes, administrando‐se o novo medicamento a 10 desses doentes escolhidos ao acaso e o medicamento habitual aos restantes. População: Todos os 50 doentes com a doença que o medicamento a estudar pretende tratar. Amostra: Os 10 doentes selecionados. CONTROLE DE QUALIDADE. O Gerente de Produção de uma fábrica de parafusos pretende assegurar‐se de que a porcentagem de peças defeituosas não excede um determinado valor, a partir do qual determinada encomenda poderia ser rejeitada. População: Todos os parafusos fabricados ou a fabricar, utilizando o mesmo processo. Amostra: Parafusos escolhidos ao acaso entre os lotes produzidos. ESTUDOS DE MERCADO. O gerente de uma fábrica de produtos desportivos pretende lançar uma nova linha de esquis, pelo que encarrega uma empresa especialista em estudos de mercado de “estimar“ a porcentagem de potenciais compradores desse produto. População: conjunto de todos os praticantes de desportos de neve. Amostra: conjunto de alguns praticantes inquiridos pela empresa. SISTEMAS DE PRODUÇÃO. Um fabricante de pneus desenvolveu um novo tipo de pneu e quer saber o aumento da durabilidade em termos de kilometragem em relação à atual linha da empresa. Produz diariamente 1000 pneus e selecionou 120 para testes. População: 1000 pneus. Amostra: 120 pneus.
OUTROS EXEMPLOS DE AMOSTRAS:
- 80 ESTATÍSTICA DESCRITIVA E ESTATÍSTICA INFERENCIAL AMOSTRA (uma parte da população)
POPULAÇÃO (todos os elementos em estudo)
Estatística descritiva – É o ramo da estatística que envolve a organização, o resumo e a representação dos dados para tomada de decisão. Estatística Inferencial – É o ramo da estatística que envolve o uso da amostra para chegar a conclusões sobre a população. Uma ferramenta básica no estudo da estatística inferencial é a probabilidade.
Algumas ferramentas Estatística Inferencial:
aplicadas
à
Probabilidades Uma Probabilidade é uma medida numérica que representa a chance de um evento ocorrer. Ex.: Ao lançar um dado, qual a probabilidade de obter o valor 4? R = 1/6 = 16%
Estimação, margem de erro e intervalo de confiança Suponha que o tempo médio que você leva para chegar ao trabalho de carro é de 35’, com uma margem de erro de 5’ para mais ou para menos. A estimativa é de que o tempo médio gasto até chegar ao trabalho fica em algum ponto entre 30’ e 40’. Esta estimativa é um intervalo de confiança, pois leva em consideração o fato de que os resultados da amostra irão variar e dá uma indicação de uma variação esperada.
A margem de erro é uma medida de quão próximo você espera que seus resultados representem toda a população que está sendo estudada. Vários fatores influenciam a amplitude de um intervalo de confiança, tais como o tamanho amostral, a variabilidade da população e o quanto você espera obter de precisão. A maioria dos pesquisadores contenta‐se com 95% de confiança em seus resultados. Estar 95% confiante indica que se você coletar muitas, mas muitas amostras e calcular o intervalo de confiança para todas, 95% dessas amostras terão intervalos de confiança que abrangerão o alvo.
Teste de hipótese Teste de hipótese é um procedimento estatístico em que os dados são coletados e medidos para comprovar uma alegação feita sobre uma população. Por exemplo, se uma pizzaria alega entregar as pizzas dentro de 30’ a partir do pedido, você pode testar se essa alegação é verdadeira, coletando uma amostra aleatória do tempo de entrega durante um determinado período de tempo e observar o tempo médio de entrega para essa amostra.
- 81 -
REFERÊNCIAS BIBLIOGRÁFICAS ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2 ed. São Paulo: Cengage Learning, 2009. 597 p. BRUNI, Adriano Leal. Estatística para concursos. São Paulo: Atlas, 2008. 197p. COSTA, Sérgio Francisco. Introdução ilustrada à estatística. 4 ed. São Paulo: Harbra, 2005. 399 p. CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p. FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003, 320 p. GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova abordagem – volume único. São Paulo: FTD, 2002. 712 p. HAZZAN, Samuel. Fundamentos da matemática elementar: Matemática financeira, comercial e estatística descritiva. Volume 11. 1 ed. São Paulo: Atual editora, 2004. 230p. HELP! Sistema de consulta interativa. Matemática. Rio de Janeiro: O globo, 1997. 319 p. Instituto Brasileiro de Geografia e Estatística – IBGE. A instituição. Disponível <http://www.ibge.gov.br/home/disseminacao/eventos/missao/default.shtm>. Acesso em 06 abr 2010.
em
LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p. LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p. LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p. LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999. 174 p. MANDIN, Daniel. Estatística descomplicada. 9 ed. Brasília: Vestcon, 2002. 227 p. MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de Janeiro: LTC, 2003. 465 p. OLIVEIRA, Uanderson Rebula de. Ergonomia, higiene e segurança do trabalho. Resende-RJ: Apostila. Universidade Estácio de Sá, 2009. 199 p. Resumão – estatística. 2 ed. São Paulo: Barros, fischer & Associados, novembro 2006. 6 p. RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p. SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2 ed. São Paulo: Atlas, 1996. 189 p. SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p. SPIEGEL, Murray R. Estatística: resumo da teoria, 875 problemas resolvidos, 619 problemas propostos. São Paulo: McGraw-Hill do Brasil, 1977. 580 p. TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p. URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência moderna, 2010. 530p. VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p. WERKEMA, Maria Cristina Catarino. As ferramentas da qualidade no gerenciamento dos processos. Belo Horizonte: EDG, 1995. 128 p.
- 82 -
LIVROS RECOMENDADOS
Um livro introdutório de estatística que inclui um estilo de escrita amigável, conteúdo que reflete as características importantes de um curso introdutório moderno de estatística, o uso da tecnologia computacional mais recente, de conjuntos de dados interessantes e reais, e abundância de componentes pedagógicos. O CD-ROM inclui os conjuntos de dados do Apêndice B do livro. Esses conjuntos de dados encontram-se armazenados em formato texto, planilhas do Minitab, planilhas do Excel e uma aplicação para a calculadora TI-83. Inclui também programas para a calculadora gráfica TI-83 Plus®, o Programa Estatístico STATDISK (Versão 9.1) e um suplemento do Excel, desenvolvido para aumentar os recursos dos programas estatísticos do Excel.
Este livro diferencia-se dos tradicionais livros, materiais de referência e manuais de estatísticas, pois possui: Explicações intuitivas e práticas sobre conceitos estatísticos, ideias, técnicas, fórmulas e cálculos. Passo a passo conciso e claro de procedimentos que intuitivamente explicam como lidar com problemas estatísticos. Exemplos interessantes do mundo real relacionados ao cotidiano pessoal e profissional. Respostas honestas e sinceras para perguntas como “O que isso realmente significa?” e “Quando e como eu vou usar isso?” Neste livro você encontrará: Explicações em português de fácil entendimento. Informações fáceis de localizar e passo-a-passo. Ícones e outros recursos de identificação e memorização. Folha de cola para destacar com informações práticas. Listas dos 10 melhores relacionados ao assunto. Um toque de humor e diversão. Onde comprar: www.submarino.com.br
- 83 -
SOFTWARE BIOESTAT
Texto extraído da tese de doutorado em Engenharia de Ualison Rebula de Oliveira
Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o MINITAB (TRIOLA, 2005). Assim, buscando‐se recursos computacionais que facilitassem o tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na Internet que oferecem programas em Javascript para cálculos on‐line, a exemplo da página na Internet www.stat.ucla.edu. Após análise de pós e contras de cada aplicativo pesquisado, selecionou‐se o pacote estatístico BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos não‐paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível na atualidade para o cálculo do qui‐quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0 e possuir mais de 20 anos de criação.
INTERFACE BIOESTAT
Baixar software: www.mamiraua.org.br
- 84 ESTATÍSTICA NO EXCEL O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo excel, bastando inserir os valores da variável de interesse.
Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos Lapponi. WWW.SUBMARINO.COM.BR 4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus ‐ Acompanha CD‐ROM com Planilhas, Modelos, Simuladores etc. para Excel. O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade, Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD‐Rom, ou modificando‐os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam conhecer e aprender a utilizar os recursos de Estatística disponíveis. TÓPICOS • DADOS, VARIÁVEIS E AMOSTRAS • DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS • MEDIDAS DE TENDÊNCIA CENTRAL • MEDIDAS DE DISPERSÃO/VARIAÇÃO • PROBABILIDADE • CORRELAÇÃO • VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS • DISTRIBUIÇÕES CONTÍNUAS • COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS • DISTRIBUIÇÃO AMOSTRAL • ESTIMAÇÃO • TESTE DE HIPÓTESES • TESTES DE HIPÓTESES COM DUAS AMOSTRAS • ANÁLISE DA VARIÂNCIA • REGRESSÃO LINEAR • AJUSTE NÃO LINEAR
NORMAS PARA AMOSTRAGEM ABNT (Associação Brasileira de Normas Técnicas) LINK
N°
Título
Data
ABNT IEC/PAS 62596:2012
Produtos eletroeletrônicos — Determinação de substâncias restritas — Procedimento de amostragem — Diretrizes
2012-08-03
ABNT NBR 10007:2004
Amostragem de resíduos sólidos
2004-05-31
ABNT NBR 10191:2015
Amostragem de lã para determinação do fator de correção de massa - Procedimento
2015-01-12
ABNT NBR 10194:2015
Amostragem de lã bruta - Procedimento
2015-01-12
ABNT NBR 10790:2015 Emenda 1:2016
Cal virgem, hidratada e em suspensão aquosa — Aplicação em saneamento básico — Especificação técnica, amostragem e métodos de ensaio
2016-11-28
ABNT NBR 10790:2016
Cal virgem, hidratada e em suspensão aquosa — Aplicação em saneamento básico — Especificação técnica, amostragem e métodos de ensaio
2016-11-28
ABNT NBR 11161:2016
Grãos — Procedimentos de amostragem
2016-06-13
ABNT NBR 11176:2013
Sulfato de alumínio para aplicação em saneamento básico — Especificação técnica, amostragem e métodos de ensaios
2013-06-06
ABNT NBR 11887:2015
Hipoclorito de cálcio - Aplicação em saneamento básico - Especificação técnica, amostragem e métodos de ensaio
2015-01-13
ABNT NBR 12019:1990
Efluentes gasosos em dutos e chaminés de fontes estacionárias - Determinação de material particulado - Método de ensaio
1990-12-30
ABNT NBR 12020:1992 Errata 1:1996
Efluentes gasosos em dutos e chaminés de fontes estacionárias - Calibração dos equipamentos utilizados em amostragem.
1996-07-31
ABNT NBR 12020:1992 Versão Corrigida:1996
Efluentes gasosos em dutos e chaminés de fontes estacionárias - Calibração dos equipamentos utilizados em amostragem.
1992-04-30
ABNT NBR 12022:1990
Efluentes gasosos em dutos e chaminés de fontes estacionárias - Determinação de dióxido de enxofre - Método de ensaio
1990-12-30
ABNT NBR 12245:2017
Cimento isolante térmico — Amostragem e preparação de corpos de prova
2017-04-24
ABNT NBR 12279:1991
Amostragem de hipoclorito de sódio - Procedimento
1991-08-30
ABNT NBR 12280:1991
Amostragem de carvão ativado pulverizado - Procedimento
1991-08-30
ABNT NBR 12813:1993
Extração de amostras do fluido hidráulico de um sistema em operação, para análise de contaminação por partículas - Procedimento
1993-01-30
ABNT NBR 12897:1993
Emprego do opacímetro para medicação do teor de fuligem de motor Diesel - Método de absorção de luz Procedimento
1993-08-30
ABNT NBR 12970:2007
Amostragem e inspeção visual para recebimento de tintas para sinalização horizontal em aeroportos
2007-12-21
ABNT NBR 13005:1993
Qualificação de fluido hidráulico - Nível de limpeza do recipiente de amostragem - Método de ensaio
1993-10-30
ABNT NBR 13336:2013
Couro — Banho residual e efluente líquido — Amostragem
2013-03-26
ABNT NBR 13412:1995
Material particulado em suspensão na atmosfera - Determinação da concentração de partículas inaláveis pelo método do amostrador de grande volume acoplado a um separador inercial de partículas - Método de ensaio
1995-06-30
ABNT NBR 13573:2012
Insumos — Amostragem para curtimento e acabamento de couros
2012-08-24
ABNT NBR 13818:1997 Versão Corrigida:1997
Placas cerâmicas para revestimento - Especificação e métodos de ensaios
1997-04-30
ABNT NBR 13997:1997
Pastas celulósicas - Amostragem para ensaio
1997-11-30
ABNT NBR 14101:1998
Papel e cartão - Tubetes - Amostragem para ensaios
1998-05-30
ABNT NBR 14104:1998
Amostragem e inspeção em fábrica de cabos e cordões ópticos - Procedimento
1998-06-30
ABNT NBR 14257:1998
Papel e cartão - Tubetes - Determinação da umidade - Método por secagem em estufa
1998-12-30
ABNT NBR 14603:2000
Amostragem e inspeção em fábrica de fibras ópticas - Procedimento
2000-10-30
ABNT NBR 14605-7:2009
Armazenamento de líquidos inflamáveis e combustíveis – Sistema de drenagem oleosa
2009-08-27
ABNT NBR 14660:2004
Madeira - Amostragem e preparação para análise
2004-04-30
ABNT NBR 14674:2012
Adesivos para calçados e correlatos — Procedimento de amostragem
2012-01-11
ABNT NBR 14795:2017
Nãotecido - Plano de amostragem - Procedimento
2017-03-23
ABNT NBR 14883:2002 Errata 1:2005
Petróleo e produtos de petróleo - Amostragem manual
2005-02-28
ABNT NBR 14883:2002 Versão Corrigida:2005
Petróleo e produtos de petróleo - Amostragem manual
2002-08-30
ABNT NBR 14939:2003
Amostragem do alumínio e suas ligas para análise espectroquímica
2003-04-30
ABNT NBR 15007:2017
Produtos à base de orto e polifosfatos para aplicação em saneamento básico - Especificação técnica, amostragem e métodos de ensaio
2017-04-28
ABNT NBR 15463:2013
Placas cerâmicas para revestimento — Porcelanato
2013-09-03
ABNT NBR 15577-1:2008 Versão Corrigida:2008
Agregados - Reatividade álcali-agregado
2008-04-14
ABNT NBR 15714-1:2009
Apicultura - Mel
2009-06-02
ABNT NBR 15847:2010
Amostragem de água subterrânea em poços de monitoramento — Métodos de purga
2010-06-21
ABNT NBR 15900-1:2009
Água para amassamento do concreto
2009-11-19
ABNT NBR 16000:2011
Amostragem de material na forma de pó para fundição – Procedimento
2011-11-29
ABNT NBR 16009:2011
Materiais de fundição – Dispositivos para amostragem – Procedimento
2011-11-29
ABNT NBR 16075:2012
Diagnóstico de uso in vitro — Competência de laboratórios e organização de ensaio de avaliação da conformidade de produtos — Requisitos gerais
2012-07-04
ABNT NBR 16434:2015
Amostragem de resíduos sólidos, solos e sedimentos - Análise de compostos orgânicos voláteis (COV) Procedimento
2015-09-01
ABNT NBR 16435:2015
Controle da qualidade na amostragem para fins de investigação de áreas contaminadas - Procedimento
2015-09-01
ABNT NBR 16488:2016
Cloreto de polialumínio (PAC) — Aplicação em saneamento básico — Especificação técnica, amostragem e métodos de ensaio
2016-05-30
ABNT NBR 16560:2017
Biogás e biometano - Determinação de siloxanos por cromatografia em fase gasosa e amostragem com impingers
2017-01-09
ABNT NBR 16561:2017
Biometano - Determinação de siloxanos por cromatografia em fase gasosa e amostragem com tubo de dessorção térmica
2017-01-09
ABNT NBR 16562:2017
Biogás e biometano - Determinação de compostos orgânicos voláteis por cromatografia em fase gasosa e amostragem com tubo de dessorção térmica
2017-01-09
ABNT NBR 16595:2017
Minérios de ferro - Requisitos para utilização de amostradores tipo cross belt
2017-04-11
ABNT NBR 5425:1985 Versão Corrigida:1989
Guia para inspeção por amostragem no controle e certificação de qualidade
1977-12-30
ABNT NBR 5426:1977 Errata 1:1989
Planos de amostragem e procedimentos na inspeção por atributos
1989-10-01
ABNT NBR 5426:1985 Versão Corrigida:1989
Planos de amostragem e procedimentos na inspeção por atributos
1985-01-30
ABNT NBR 5427:1985 Versão Corrigida:1989
Guia para utilização da norma ABNT NBR 5426 - Planos de amostragem e procedimentos na inspeção por atributos
1985-01-30
ABNT NBR 5428:1985 Versão Corrigida:1989
Procedimentos estatísticos para determinação da validade de inspeção por atributos feita pelos fornecedores
1985-01-30
ABNT NBR 5429:1977 Errata 1:1989
Planos de amostragem e procedimentos na inspeção por variáveis
1989-10-30
ABNT NBR 5429:1977 Errata 2:1998
Planos de amostragem e procedimentos na inspeção por variáveis
1998-02-28
ABNT NBR 5429:1985 Versão Corrigida:1998
Planos de amostragem e procedimentos na inspeção por variáveis
1985-01-30
ABNT NBR 5430:1977 Errata 1:1989
Guia de utilização da norma ABNT NBR 5429 - Planos de amostragem e procedimentos na inspeção por
1989-10-30
variáveis. ABNT NBR 5430:1985 Versão Corrigida:1989
Guia de utilização da norma ABNT NBR 5429 - Planos de amostragem e procedimentos na inspeção por variáveis.
1985-01-30
ABNT NBR 5699:1983
Véu de fibra de vidro tipo reforçado - Determinação da massa
1983-10-30
ABNT NBR 5764:2012
Produtos químicos industriais líquidos de uma só fase — Amostragem
2012-08-07
ABNT NBR 5889:1982
Aço fundido e ferro fundido - Coleta de amostras
1982-03-30
ABNT NBR 6490:2016
Rochas — Caracterização de ocorrência — Reconhecimento e amostragem
2016-05-12
ABNT NBR 6491:1985
Reconhecimento e amostragem para fins de caracterização de pedregulho e areia
1985-02-28
ABNT NBR 7070:2006
Amostragem de gases e óleo mineral isolantes de equipamentos elétricos e análise dos gases livres e dissolvidos
2006-05-15
ABNT NBR 7345:2013
Corretivos de acidez de solo — Amostragem em caminhões e vagões ferroviários
2013-04-12
ABNT NBR 8423:1989 Errata 1:1991
Técnicas de amostragem de ácido fosfórico para uso industrial (inclusive alimentar) - Procedimento
1991-10-30
ABNT NBR 8423:1989 Versão Corrigida:1991
Técnicas de amostragem de ácido fosfórico para uso industrial (inclusive alimentar) - Procedimento
1989-11-30
ABNT NBR 8840:2013
Diretrizes para amostragem de líquidos isolantes
2013-10-30
ABNT NBR 9154:1999
Amostragem e inspeção em fábrica de fios e cabos telefônicos - Procedimento
1999-12-30
ABNT NBR 9488:2011
Amostragem de compensado para ensaio – Requisitos
2011-11-21
ABNT NBR 9547:1997
Material particulado em suspensão no ar ambiente - Determinação da concentração total pelo método do amostrador de grande volume
1997-09-30
ABNT NBR 9897:1987
Planejamento de amostragem de efluentes líquidos e corpos receptores - Procedimento
1987-06-30
ABNT NBR 9898:1987
Preservação e técnicas de amostragem de afluente líquidos e corpos receptores - Procedimento
1987-06-30
ABNT NBR ISO 11650:2008
Desempenho de equipamento de recolhimento e/ou reciclagem de fluidos refrigerantes
2008-11-17
ABNT NBR ISO 123:2010
Látex de borracha – Amostragem
2010-11-30
ABNT NBR ISO 12743:2011
Concentrados de cobre, chumbo, zinco e níquel — Procedimentos de amostragem para determinação dos teores de metal e umidade
2011-07-15
ABNT NBR ISO 14952-3:2006
Sistemas espaciais - Limpeza de superfície de sistemas de fluido
2006-05-15
ABNT NBR ISO 15535:2015
Requisitos gerais para o estabelecimento de bases de dados antropométricos
2015-08-13
ABNT NBR ISO 15605:2015
Adesivos - Amostragem
2015-01-23
ABNT NBR ISO 15859-1:2012
Sistemas espaciais — Características do fluido, métodos de ensaio e de amostragem
2012-10-04
ABNT NBR ISO 15859-5:2011
Sistemas espaciais — Características, amostragem e métodos de ensaio de fluidos
2011-06-17
ABNT NBR ISO 15859-6:2011
Sistemas espaciais — Características, amostragem e métodos de análise de fluidos
2011-06-16
ABNT NBR ISO 15859-7:2011
Sistemas espaciais – Características, amostragem e métodos de análise de fluidos
2011-06-17
ABNT NBR ISO 15859-8:2012
Sistemas espaciais — Características, amostragem e métodos de ensaio de fluidos
2012-04-24
ABNT NBR ISO 17853:2013
Desgaste de materiais para implante — Partículas de desgaste metálicas e poliméricas — Isolamento e caracterização
2013-04-15
ABNT NBR ISO 1795:2010
Borracha natural crua e borracha sintética crua – Procedimentos para amostragem e preparação
2010-06-01
ABNT NBR ISO 18593:2012
Microbiologia de alimentos para consumo humano e animal — Métodos horizontais para técnicas de amostragem de superfícies utilizando placas de contato e swabs
2012-07-27
ABNT NBR ISO 2418:2015
Couro - Ensaios químicos, físicos e mecânicos e de solidez - Local da amostragem
2015-11-23
ABNT NBR ISO 2927:2014
Óxido de alumínio primariamente usado para produção de alumínio — Amostragem
2014-05-29
ABNT NBR ISO 3082:2011
Minérios de ferro - Procedimentos de amostragem e preparação de amostras
2011-03-23
ABNT NBR ISO 3084:2003
Minérios de ferro - Métodos experimentais para avaliação da variação da qualidade
2003-08-30
ABNT NBR ISO 3085:2003 Errata 1:2013
Minérios de ferro — Métodos experimentais para verificação da precisão de amostragem, preparação de amostras e medida
2013-06-10
ABNT NBR ISO 3085:2003 Versão Corrigida:2013
Minérios de ferro - Métodos experimentais para verificação da precisão de amostragem, preparação de amostras e medida
2003-08-30
ABNT NBR ISO 3086:2008
Minérios de ferro - Métodos experimentais para verificação do vício de amostragem
2008-03-17
ABNT NBR ISO 50003:2016
Sistemas de gestão de energia - Requisitos para organismos de auditoria e certificação de sistemas de gestão de energia
2016-06-29
ABNT NBR ISO 5022:2014
Produtos refratários conformados — Amostragem e ensaios de aceitação
2014-04-08
ABNT NBR ISO 5264-2:2012
Pastas celulósicas — Refinação em laboratório
2012-06-22
ABNT NBR ISO 8243:2014
Cigarros - Amostragem
2014-11-18
ABNT NBR ISO 8656-1:2013
Produtos refratários — Amostragem de matérias-primas e produtos não conformados
2013-12-20
ABNT NBR ISO 8685:2015
Minérios de alumínio - Procedimento de amostragem
2015-04-10
ABNT NBR ISO 9138:2015
Grãos abrasivos - Amostragem e divisão
2015-07-22
ABNT NBR ISO 9862:2013
Geossintéticos — Amostragem e preparação de corpos de prova para ensaios
2013-05-21
ABNT NBR ISO/IEC 17025:2005 Versão Corrigida 2:2006
Requisitos gerais para a competência de laboratórios de ensaio e calibração
2005-09-30
ABNT NBR NM 159:2000
Cal para aciaria - Amostragem e preparação de amostras
2000-10-30
ABNT NBR NM 164:2000
Carbureto de cálcio - Amostragem - Procedimento
2000-10-30
ABNT NBR NM 165:2000
Carbureto de cálcio - Preparação de amostras - Procedimento
2000-10-30
ABNT NBR NM 26:2009
Agregados - Amostragem
2009-10-30
ABNT NBR NM 27:2001
Agregados - Redução da amostra de campo para ensaios de laboratório
2001-05-30
ABNT NBR NM 33:1998
Concreto - Amostragem de concreto fresco
1998-02-28
ABNT NBR NM 99:2000
Alumínio para uso siderúrgico - Amostragem e preparação de amostras para análise química
2000-10-30
ABNT NBR NM COPANT 1603-2:2000
Ferroligas e outros aditivos - Vocabulário
2000-10-30
ABNT NBR NM ISO 186:2006
Papel e cartão - Amostragem para determinar a qualidade média
2006-04-30
ABNT NBR NM ISO 287:2012
Papel e cartão — Determinação do teor de umidade de um lote — Método por secagem em estufa (ISO 287:2009, IDT)
2012-05-22
ABNT NBR NM ISO 4552-1:2000
Ferroligas - Amostragem e preparação de amostras para análise química
2000-10-30
ABNT NBR NM ISO 4552-2:2000
Ferroligas - Amostragem e preparação de amostras para análise química
2000-10-30
ABNT NBR NM ISO 7347:2000
Ferroligas - Métodos experimentais para comprovar os erros sistemáticos da amostragem e preparação da amostra
2000-10-30
LIVROS PUBLICADOS POR Uanderson Rébula de Oliveira
QUERO COMPRAR OS LIVROS
Ver amostras dos livros
Esses ebooks estão disponíveis na livraria Saraiva por preços bem acessíveis. Além disso, você pode imprimir, desenhar, esquematizar ou usar qualquer leitor pdf, pois a maioria deles encontrase desbloqueado. Prof. Uanderson Rébula. Doutorando em engenharia. Professor universitário. Vivência de 21 anos em ambiente industrial. uanderson.rebula@yahoo.com.br http://lattes.cnpq.br/1039175956271626 https://br.linkedin.com/in/uandersonrebula
“Atualmente, todos – estudantes e professores – procuram o Udemy porque é a plataforma onde todos estão”. Fonte: Jornal do Brasil
Faça o curso online na Udemy
Estatística I (para leigos): aprenda fácil e rápido!
Com o Prof. MSc. Uanderson Rébula "O livro digital Estatística I para leigos possui uma linguagem fácil e ao mesmo tempo dinâmica. O conteúdo do livro está ordenado de forma a facilitar a aprendizagem dos alunos, mesmo aquelas pessoas que não tenham noção nenhuma de estatística aprenderão com esse livro. Você pode estudar sozinho para concursos pois o livro é auto explicativo ou até mesmo em grupos, no meu caso faço isso com meus alunos. Eu super recomendo esse livro!!! NOTA 1000" Maria Eunice Souza Madriz Professora de estatística da rede estadual de ensino da Bahia Avaliação do livro pelo cliente na amazon.com.br
Saiba mais Clique aqui
www.udemy.com Junte-se a milhões de estudantes na maior plataforma on-line de cursos curtos e práticos do mundo. Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de ensino on-line onde 15 milhões de alunos estão dominando novas habilidades. O foco do Udemy são os conhecimentos práticos e úteis para o mercado de trabalho. Há cursos gratuitos e pagos. São cursos curtos e com valores bem acessíveis.
Prof. MSc. Uanderson Rébula de Oliveira
Uma mensagem do Prof. MSc Uanderson Rébula. CLIQUE NO VÍDEO
CLIQUE AQUI E INSCREVA-SE NO CURSO JÁ
Sumário