Estatística
Professor Alberto Thomaz
1
1ª AULA
NORMAS PARA APRESENTAÇÃO TABULAR DOS DADOS
INTRODUÇÃO A apresentação tabular é uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídos de modo ordenado, segundo algumas regras práticas ditadas pelo Conselho /nacional de Estatística e pelo IBGE. Tais regras acham-se publicadas e dispõem sobre os elementos essenciais e complementares da tabela, a especificação dos dados e dos sinais convencionais, o procedimento correto a ser desenvolvido no preenchimento da tabela e outros dispositivos importantes. As tabelas tem a vantagem de conseguir expor, sinteticamente e em um só local, os resultados sobre determinado assunto, de modo a se obter uma visão global mais rápida daquilo que se pretende analisar. Reunindo, pois os valores em tabelas compactas, consegue-se apresentá-los e descrever-lhes a variação mais eficientemente. Essa condensação de valores permite ainda a utilização de representação gráfica, que normalmente representa uma forma mais útil elegante de apresentação da característica analisada. Capítulo 3 - Séries Estatísticas Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que se tenha uma visão global dessa ou dessas variáveis. Isto é possível apresentando esses valores em tabelas e gráficos, que irão fornecer rápidas e seguras informações a respeito das variáveis em estudo, permitindo determinações mais coerentes. TABELA é um quadro que resume um conjunto de observações. Como construir uma tabela que forneça informações de forma precisa e correta: 1º passo: Começar pelo título, que explica o conteúdo da tabela. 2º passo: Fazer o corpo da tabela, composto pelos números e informações que ela contém. É formado por linhas e colunas. Para compor o corpo da tabela, é necessário: 1. O cabeçalho, que indica o que a coluna contém. Deve estar entre traços horizontais, para melhor vizualização. 2. A coluna indicadora, que diz o que a linha contém 2
3. 3º passo: Escrever o total (as tabelas podem apresentar um total ou não). Aparece entre traços horizontais. 4. 4º passo: Coloque a fonte. Deve entrar no rodapé, sendo obrigatória. 5. Uma tabela compõem-se de: 6. Tabela 3.1 7. Produção de Café 8. Brasil - 1978-1983 9.
Fonte:Fictícia
10.
Nota:Produção destinada para o consumo interno
11.
(1) Parte exportada para a Argentina
3º passo: Escrever o total (as tabelas podem apresentar um total ou não). Aparece entre traços horizontais. 4º passo: Coloque a fonte. Deve entrar no rodapé, sendo obrigatória. Uma tabela compõem-se de: Tabela 3.1 Produção de Café Brasil - 1978-1983 Fonte:Fictícia Nota:Produção destinada para o consumo interno (1) Parte exportada para a Argentina Rodapé: fonte, chamadas e notas Notas: é usada para conceituação ou esclarecimento em geral. Chamadas: é usada para esclarecer certas minúcias em relação a casas, linhas e colunas. De acordo com a Resolução 886 da Fundação IBGE, nas casas ou células, devemos colocar: - um traço horizontal (___) quando o valor é zero, não só quanto a natureza das coisas, como quanto ao resultado do inquérito; 3
- três pontos (...) quando não temos os dados; - um ponto de interrogação ( ? ) quando temos dúvida quanto a exatidão de determinado valor; - zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada. Se os valores são expressos em numerais decimais, precisamos acrescentar a parte decimal um número correspondente de zeros (0,0; 0,00; 0,00; ...). Denomina-se SÉRIE ESTATÍSTICA toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da ÉPOCA, do LOCAL, ou da ESPÉCIE (fenômeno). Numa série estatística observa-se a existência de três elementos ou fatores: o TEMPO, o ESPAÇO e a ESPÉCIE. Conforme varie um desses elementos, a série estatística classifica-se em TEMPORAL, GEOGRÁFICA e ESPECÍFICA.
SÉRIE TEMPORAL, HISTÓRICA OU CRONOLÓGICA É a série cujos dados estão em correspondência com o tempo, ou seja, variam com o tempo. Tabela 3.2 Produção Brasileira de Trigo 1988-1993
Fonte: IBGE Nota: Produção voltada para o consumo interno. (1) Parte da produção exportada.
. Elemento variável: tempo (fator cronológico) . Elemento fixo: local (fator geográfico) e o fenômeno (espécie) 4
SÉRIE GEOGRÁFICA, TERRITORIAL OU DE LOCALIDADE É a série cujos dados estão em correspondência com a região geográfica, ou seja, o elemento variável é o fator geográfico (a região). Tabela 3.3 Produção Brasileira de Trigo, por Unidade da Federação - 1994
Fonte: Fictícia . Elemento variável: localidade (fator geográfico) . Elemento fixo: tempo e o fenômeno
SÉRIE ESPECÍFICA OU CATEGÓRICA É a série cujos dados estão em correspondência com a espécie, ou seja, variam com o fenômeno. Tabela 3.4 Rebanhos Brasileiros
Fonte: IBGE . Elemento variável: fenômeno (espécie) . Elemento fixo: local e o tempo 5
SÉRIES MISTAS As combinações entre as séries anteriores constituem novas séries que são denominadas séries compostas ou mistas e são apresentadas em tabelas de dupla entrada. Tabela 3.5 Exportação Brasileira de alguns produtos agrícolas - 1990 - 1992
Fonte: Ministério da Agricultura Nota: Produtos mais exportados no período. Este exemplo se constitui numa Série Temporal-Específica . Elemento variável: tempo e a espécie . Elemento fixo: local Obs: uma tabela nem sempre representa uma série estatística, pode ser um aglomerado de informações úteis sobre certo assunto. Tabela 3.6 Situação dos espetáculos cinematográficos no Brasil - 1967
Fonte: Anuário Estatístico do Brasil - IBGE OBSERVAÇÃO: SÉRIE HOMÓGRADA A Série homógrada é aquela em que a variável descrita apresenta variação discreta ou descontínua. São séries homógradas a série temporal, a geográfica e a específica.
6
SÉRIE HETERÓGRADA A série heterógrada é aquela na qual o fenômeno ou fato apresenta gradações ou subdivisões. Embora fixo, o fenômeno varia em intensidade. A distribuição de freqüências ou seriação é uma série heterógrada.
REPRESENTAÇÃO GRÁFICA INTRODUÇÃO A Estatística Descritiva pode descrever os dados através de gráficos. A apresentação gráfica é um complemento importante da apresentação tabular. A vantagem de um gráfico sobre a tabela está em possibilitar uma rápida impressão visual da distribuição dos valores ou das freqüências observadas. Os gráficos propiciam uma idéia inicial mais satisfatória da concentração e dispersão dos valores, uma vez que através deles os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis. REQUISITOS FUNDAMENTAIS EM UM GRÁFICO: a. Simplicidade: possibilitar a análise rápida do fenômeno observado. Deve conter apenas o essencial. b. Clareza: possibilitar a leitura e interpretações correta dos valores do fenômeno. c. Veracidade: deve expressar a verdade sobre o fenômeno observado. TIPOS DE GRÁFICOS QUANTO A FORMA: a. Diagramas: gráficos geométricos dispostos em duas dimensões. São mais usados na representação de séries estatísticas. b. Cartogramas: é a representação sobre uma carta geográfica, sendo muito usado na Geografia, História e Demografia. c. Estereogramas: representam volumes e são apresentados em três dimensões. d. Pictogramas: a representação gráfica consta de figuras representativas do fenômeno. Desperta logo a atenção do público.
CLASSIFICAÇÃO DOS GRÁFICOS QUANTO AO OBJETIVO a. Gráficos de informação
7
O objetivo é proporcionar uma visualização rápida e clara da intensidade das categorias ou dos valores relativos ao fenômeno. São gráficos tipicamente expositivos, devendo ser o mais completo possível, dispensando comentários explicativos. CARACTERÍSTICAS: - deve conter título em letra de forma; - as legendas podem ser omitidas, desde que as informações presentes possibilite a interpretação do gráfico. b. Gráficos de análise Estes gráficos fornecem informações importantes na fase de análise dos dados, sendo também informativos. Os gráficos de análise, geralmente, vêm acompanhado de uma tabela e um texto onde se destaca os pontos principais revelados pelo gráfico ou pela tabela.
8
2ª AULA
PRINCIPAIS TIPOS DE GRÁFICOS GRÁFICOS EM CURVAS OU EM LINHAS São usados para representar séries temporais, principalmente quando a série cobrir um grande número de períodos de tempo. Considere a série temporal:
Tabela 4.1 Produção de Arroz do Município X - 1984-1994
Gráfico 4.1. Produção de Arroz do Município X - 1984-1994
(1000 ton)
2500
2000
1500
1000
500
0 84
85
86
87
88
89
90
91
92
93
94
9
GRÁFICOS EM COLUNAS É a representação de uma série estatística através de retângulos, dispostos em colunas (na vertical) ou em retângulos (na horizontal). Este tipo de gráfico representa praticamente qualquer série estatística. As regras para a construção são as mesmas do gráfico em curvas. As bases das colunas são iguais e as alturas são proporcionais aos respectivos dados. Exemplo: Tabela 4.2 Produção de Soja do Município X - 1991-1995
Fonte: Secretaria Municipal de Agricultura Para cada ano é construído uma coluna, variando a altura (proporcional a cada quantidade). As colunas são separadas uma das outras. Observação: O espaço entre as colunas pode variar de 1/3 a 2/3 do tamanho da base da coluna.
Toneladas
Gráfico 4.2. Produção de Soja do Município X - 1991-1995 300000 250000 200000 150000 100000 50000 0 1991
1992
1993
1994
1995
10
Uso do gráfico em colunas para representar outras séries estatísticas
Tabela 4.3 Áreas (Km2) das Regiões Fisiográficas - Brasil - 1966
Fonte: IBGE
Grafico 4.3. Áreas (Km2) das Regiões Fisiográficas - Brasil - 1966. 4.000.000 Km2 3.500.000 3.000.000 2.500.000 2.000.000 1.500.000 1.000.000 500.000 0 Norte
Nordeste
Sudeste
Sul
Centro-Oeste
GRÁFICOS EM BARRAS As alturas dos retângulos são iguais e arbitrárias e os comprimentos são proporcionais aos respectivos dados. As barras devem ser separadas uma das outras pelo mesmo espaço de forma que as inscrições identifiquem as diferentes barras. O espaço entre as barras pode ser a metade (½) ou dois terços(2/3) de suas larguras. As barras devem ser colocadas em ordem de grandeza de forma decrescente para facilitar a comparação dos valores. A categoria “outros” (quando existir) são representadas na barra inferior, mesmo que o seu comprimento exceda o de alguma outra.
11
Outra representação gráfica da Tabela 4.3:
Grafico 4.4. Áreas (Km2) das Regiões Fisiográficas - Brasil - 1966. Norte
Centro-Oeste Sudeste Nordeste Sul
Km2
Tabela 4.4 Matrícula efetiva no Ensino Superior, segundo os ramos de ensino -Brasil - 1995
Fonte: Fictícia
Exemplo: 12
Tabela 4.7 Produção Agrícola do Estado A - 1995
Fonte: Fictícia
Gráfico 4.7. Importação Brasileira de vinho e champanhe proveniente de várias origens - 1994. França Portugal Itália Espanha Chile Argentina
0
50
100 Vinho
150
200
Champanhe
250 1000 dólares
GRÁFICO EM SETORES É a representação gráfica de uma série estatística em um círculo de raio qualquer, pôr meio de setores com ângulos centrais proporcionais às ocorrências. É utilizado quando se pretende comparar cada valor da série com o total. O total da série corresponde a 360 (total de graus de um arco de circunferência). O gráfico em setores representam valores absolutos ou porcentagens complementares.
13
As séries geográficas, específicas e as categorias em nível nominal são mais representadas em gráficos de setores, desde que não apresentem muitas parcelas (no máximo sete). Cada parcela componente do total será expressa em graus, calculada através de uma regra de três:
Tabela 4.7 Produção Agrícola do Estado A - 1995
Gráfico 4.8. Produção Agrícola do Estado A - 1995. Feijão 3%
Milho 14%
Açucar 28%
Café 55%
Outras maneiras de representar graficamente a Tabela 4.7:
14
Gráfico 4.9. Produção Agrícola do Estado A - 1995. Quantidade (t) 400.000 300.000 200.000 100.000 0 Café
Café
Açucar
Milho
Feijão
Gráfico 4.10. Produção Agrícola do Estado A - 1995.
Açucar Milho Feijão
Quantidade (t)
3.1 - Distribuição de freqüência Será tratado em capítulo a parte devido a sua importância. Exemplo:
15
3ª AULA
3.2 Dados Absolutos e Dados Relativos Dados Absolutos: são resultantes de uma coleta direta, sem outra manipulação senão a contagem Dados Relativos: são resultantes de comparações, há um tratamento matemático dos dados para uma melhor interpretação.
3.2.1 As porcentagens
Calculando a percentagem das pessoas em cada faixa etária, pode-se preencher uma nova coluna.
16
Pode-se agora tirar uma melhor conclusão e também construir um gráfico de setores (pizza). Idade da Morte causada por arma de fogo
65 |- 75 10%
75 |- 85 2%
55 |- 65 8% 45 |- 55 4%
15 |- 25 44%
35 |- 45 12%
25 |- 35 20%
3.2.2 - Os índices Os índices são razões entre duas grandezas independentes. Ex: Relação candidato vaga = Qtde de candidatos / Qtde de vagas Densidade demográfica = população / área de uma superfície Renda per capita = renda total de uma população / população 3.2.3 - Os Coeficientes Os coeficientes são razões entre o número de ocorrências e o número total. É a porcentagem expressa na forma unitária. Ex: Coeficiente de evasão escolar = no de alunos evadidos / no inicial de alunos Coeficiente de aproveitamento escolar = no de alunos aprovados/ no final de alunos
17
3.2.4 - As Taxas As taxas são os coeficientes multiplicados por uma potência de 10, 100, 1000, etc para tornar o resultado mais inteligível (claro) Ex: Taxas de mortalidade = coeficiente de mortalidade x 1000 ( lê-se mortes a cada 1000 habitantes) Taxa de evasão escolar = coeficiente de evasão escolar x 100
Exercícios: Exercício 1 - Considere a tabela abaixo:
Exercício 2 - Considerando que o Brasil, em 2000, apresentou: População: 164 milhões de habitantes Superfície: 8 511 996 km2 Nascimentos: 6,2 milhões Óbitos: 3,8 milhões Calcule: a) o índice de densidade demográfica b) a taxa de natalidade c) a taxa de mortalidade 18
Exercício 3 - Em certa eleição municipal foram obtidos os seguintes resultados
Determine o número de votos obtido pelo candidato vencedor.
Exercício 4 : A tabela abaixo apresenta a variação percentual das vendas industriais de aparelhos domésticos, comparando o período de julho e agosto de 2003 com o período de julho e agosto de 2004. Vendas industriais de aparelhos domésticos Variação percentual jul/ago 2003 e jul/ago 2004 Refrigeradores 15,06 Freezers verticais 4,97 Freezers horizontais 42,61 Lavadoras automáticas - 18,18 Fogões - 0,17 Condicionadores de ar 83,45
Supondo que no período de jul/ago de 2003 tenham sido vendidas 200.000 lavadoras automáticas, determine o número de unidades vendidas no mesmo período de 2004.
4ª AULA
19
Capítulo 4 - Distribuição de Freqüência 4.1 Tabela Primitiva e Rol Tabela primitiva - elementos da variável ainda não foram numericamente organizados Ex: Total de pontos (acertos) obtidos por 40 alunos em um teste de 175 questões
4.2 Distribuição de freqüência Com isso pode-se construir uma tabela denominada Distribuição de Freqüência, sendo a freqüência o numero de elementos relacionados a um determinado valor da variável. Ex:
Para uma melhor visualização e economia de espaço, agrupam-se os valores em intervalos de classe. Ex:
20
Para a confecção dessa tabela pode-se pular o passo anterior, ou seja, do rol já partir para a tabela de distribuição de freqüências com intervalos de classe.
21
5ª AULA
4.3 Elementos de uma distribuição de freqüência a) Classes de freqüência: são os intervalos de variação da variável, representados por i, sendo i = 1,2,3,4,...,k, onde k é o número total de classes. Em nosso exemplo k = 6 b) Limites da classe: são os extremos de cada classe. Limite superior Li
Limite inferior li
O símbolo li |- Li significa inclusão de li e exclusão de Li l2 = 154 e L2 = 158 c) Amplitude de um intervalo de classe (h) é a medida do intervalo que define a classe h = Li – li h2 = 154-158 = 4 d) Amplitude total da distribuição (AT) é a diferença entre o limite superior da ultima classe (limite superior máximo) e o limite inferior da primeira (limite inferior mínimo). AT = L(max) - l (min) AT = 174 - 150 = 24 Deve-se notar que AT/h = k
24/4 = 6
e) Amplitude amostral (AA) : é a diferença entre o valor máximo e o valor mínimo da amostra AA = x(máx) - x(mín)
AA = 173-150 = 23
f) Ponto médio de uma classe (xi) : é o ponto que divide o intervalo de classe em duas partes iguais xi = (li+Li)/2
x2 = (154+158)/2 = 156
g) Freqüência simples ou absoluta: é o número de observações correspondentes a essa classe ou a esse valor f1 = 4 f2 = 9 f3 = 11 f4 = 8 f5 = 5 f6 = 3 k
fi n i 1
6
f 40 i 1
i
22
4.4 Número de Classes, Intervalos de Classe Determinação do número de classes: utiliza-se a regra de Sturges (obs: não é obrigatório, é apenas uma orientação) K = 1+3,3.logn onde, k é o número de classes e n é o numero total de dados. Esta fórmula nos permite obter a seguinte tabela
Para determinação do intervalo de classe h aplica-se
h
AA k Quando o resultado não é exato, deve-se arredondá-lo para mais.
h No caso
173 150 3,8 4 , ou seja, 6 classes de intervalo 4. 6
Exercício: .As notas obtidas por 50 alunos de uma classe foram:
23
Complete a distribuição de freqüência abaixo
24
AULA 6 4.5 Tipos de freqüências a) Freqüência Simples ou Absoluta: (fi) : é o valor que representa o número de dados de uma classe, onde :
b) Freqüência Relativa: (fri): é a porcentagem entre a freqüência simples e a freqüência total:
No exemplo: fr3 = 11/40 = 0,275 x 100 = 27,5 %
É obvio que: O propósito das freqüências relativas é o de permitir a análise e facilitar comparações. c) Freqüência Acumulada (Fi): é o total das freqüências de todos os valores inferiores ao limite superior do intervalo de uma dada classe.
OU
d) Freqüência Acumulada relativa (Fri): é a porcentagem entre a freqüência relativa acumulada da classe e a freqüência total da distribuição.
25
No exemplo temos Fr3 = 24/40 = 0,6 = 60 %, o que significa que 60 % dos alunos acertaram menos de 162 questões Pode-se então montar a seguinte tabela:
Que nos ajuda a responder: 1) Quantos alunos acertaram entre 154, inclusive, e 158 questões ? Resp. 9 alunos 2) Qual a percentagem de alunos com total de pontos inferior a 154? Resp. 10% 3) Quantos alunos acertaram menos que 162 questões ? Resp. 24 alunos 4) Quantos alunos obtiveram um total de pontos não inferior a 158? Resp. 40-13 = 27 alunos
4.6 Distribuição de Freqüência sem Intervalo de Classe Quando se trata de variável discreta de variação relativamente pequena, cada valor pode ser tomado como um intervalo de classe, tomando a seguinte forma: Os resultados de um lançamento de um dado 50 vezes foram os seguintes:
26
Exercício: Complete a tabela abaixo e responda:
27
AULA 7 4.7 Representação Gráfica de uma Distribuição de Freqüência Pode ser representado basicamente por um histograma, por um polígono de freqüência ou por um polígono de freqüência acumulada. a) Histograma: O histograma é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. Seja o exemplo:
Histograma 12
Frequências fi
10 8 6 4 2 0 150 |- 154
154 |- 158
158 |-162
162 |- 166
166 |- 170
170 |- 174
b) Polígono de freqüência: É um gráfico em linha, sendo as freqüências marcadas sobre Estaturas (cm) perpendiculares ao eixo horizontal, levantadas pelos pontos médios dos intervalos de classe.
28
12 10
f
8 6 4 2 0 148
152
156
160
164
168
172
176
Estaturas [cm]
Total de Pontos
c) Polígono de freqüência acumulada: É traçado marcando-se as freqüências acumuladas sobre perpendiculares ao eixo horizontal, levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe. 45 40 35 30
F
25 20 15 10 5 0 150
154
158
162
166
170
174
Estaturas [cm]
Total de Pontos
29
Exercício - Construa o histograma, o polígono de freqüência e o polígono de freqüência acumulada da seguinte distribuição.
Capítulo 5 - Medidas de Posição 5.1 Media Aritmética (
)
onde xi são os valores da variável e n o número de valores.
a) Desvio em relação a média (d i)
b) Propriedades: A soma algébrica dos desvio em relação a média é nula
30
Somando-se (ou subtraindo-se) uma constante (c) de todos os valores de uma variável, a média do conjunto fica aumentada (ou diminuída) dessa constante. Multiplicando-se (ou dividindo-se) uma constante (c) de todos os valores de uma variável, a média do conjunto fica multiplicada (ou dividida) por essa constante. Exemplo: Seja a nota de 10 alunos: 8, 9, 7, 6, 10, 5,5, 5, 6,5, 7,5, 8,5
A média é
Desvios:
c) para dados agrupados (distribuição de freqüência sem intervalos de classe) Seja a seguinte distribuição:
31
tem-se então:
32
AULA 8 d) para dados agrupados (distribuição de freqüência com intervalos de classe). Adota-se o seguinte: todos os valores incluídos em um determinado intervalo de classe coincidem com o seu ponto médio. Seja a seguinte distribuição:
tem-se então:
pontos
Exercício 1 - Complete a tabela e calcule a média aritmética da distribuição.
33
Exercício 2 - Complete a tabela e calcule a média aritmética da distribuição.
5.2 A Moda (Mo) Denomina-se moda o valor que ocorre com maior freqüência em uma série de valores. Caso 1) Dados não agrupados. Basta procurar o valor que mais se repete. Ex :3,4,5,6,6,6,6,7,7,8,9 A série tem moda igual a 6 (valor modal 6) Pode acontecer também uma série sem valor modal. Ex:1,2,3,4,5,6,7,8,9 série amodal Pode acontecer também uma série com mais de uma moda. Ex: 1,2,2,2,3,4,5,6,6,6,7,8,9 a série tem duas modas (2 e 6) - série bimodal
Caso 2) Dados agrupados. a) sem intervalos de classe. Basta identificar o valor da variável que possui maior freqüência. Ex: Seja a seguinte distribuição: Mo = 3
34
b) Com intervalos de classe. No caso de uma distribuição de freqüência a classe modal será a que apresenta maior freqüência, pois contém o valor da moda na distribuição. O ponto médio representativo da classe modal é denominado moda bruta que no exemplo dado é 22,5 peças diárias. Karl Pearson observou a existência de uma relação empírica que permite calcular a moda assimétrica. Estas condições satisfazem a relação empírica Mo = 3 Me – No exemplo apresentado, corresponde a Mo = 3(23,08) – 2(23), então Mo 23,24 peças. Este processo supõe o domínio conceitual simetria/assimetria, empírica, o cálculo da média aritmética e da mediana. Desejando-se obter a moda com mais exatidão empregam-se os processos de Czuber e King, os quais apresentam possibilidade de determinação gráfica e um raciocínio matemático em suas formulações. Considere-se a distribuição das vendas diárias do setor de peças de uma determinada loja para explicitar os processos de cálculo da moda acima indicados.
35
Moda bruta = 22,5 peças (ponto médio da classe modal) Moda de Pearson X
Xifi fi
Me li
X
1840 80
X 23 peças
fi 2
Po - fai .h fi
onde
40 - 24 .5 26
Me = 20 + 3,076
Me 23,08
Moda = 3(23,08) – 2(23)
Moda 23,24 peças
Me 20
Moda = 3(Me) – 2( )
Po
Po 40
Czuber desenvolve uma forma mais aproximada para o cálculo da moda partindo de um processo gráfico. Para determinar graficamente a moda Czuber parte do histograma (Figura 1), utilizando os três retângulos correspondentes à classe modal e às classes adjacentes. A moda será o valor do limite inferior da classe modal acrescida de um valor “X” determinado pela intersecção dos segmentos AB (que une o limite superior da classe que antecede a classe modal ao limite superior da classe modal) e CD (que une o limite inferior da classe modal ao inferior da classe posterior à modal). Portanto: Mo = li + X.
36
A observação da figura do histograma, usando os conceitos prévios de semelhança entre os triângulos, de proporcionalidade e a hipótese de Czuber: “A moda divide o intervalo da classe modal em distâncias proporcionais às diferenças entre a freqüência da classe modal com a freqüência das classes adjacentes”. Fazendo-se: fmo = freqüência modal fan = freqüência anterior à modal fp = freqüência posterior à modal h -= intervalo de classe li = limite inferior da classe modal ls = limite superior da classe modal Mo = moda
O processo gráfico de Czuber embasa o processo matemático e sua construção formal requer o conhecimento de conceitos prévios de geometria, proporcionalidade e fatoração.
37
Mo 20
26 - 12 .5 52 - (12 15)
Mo 20
14 .5 52 27
Mo 20
70 25
Mo = 20 + 2,8 Mo = 22,8 peças
O estudante familiarizado com o cálculo pode encontrar a fórmula de Czuber através da parábola construída de modo a passar pelos pontos médios da classe modal e das classes adjacentes a ela. O processo de W. I. King apresenta sua forma geométrica de determinação através do histograma conforme a Figura 2. Percebe-se que a Mo = li + X. Traçando, na figura, em continuidade ao segmento do limite superior da classe modal a projeção do limite inferior da classe modal tem-se AB que faz intersecção com o eixo da abcissa – escala numerada – onde se lê a moda das peças vendidas.
38
A proposta de King pouco difere da de Czuber baseada nos conceitos de semelhança entre os triângulos e proporcionalidade. Retoma-se a idéia da moda ser equivalente ao valor do limite inferior da classe modal acrescido de um valor “X” correspondente ao segmento entre o limite inferior da classe modal e o ponto de intersecção com o eixo da abcissa (Figura 2).
O processo de cálculo baseia-se na proporcionalidade pela semelhança dos triângulos de acordo com a figura acima, e a hipótese de King: “A moda divide o intervalo da classe modal em distâncias inversamente proporcionais às freqüências das classes adjacentes”. 1 X h-X 2
sendo que:
1 = fp e 2 = fan
X. 2 + 1(h - X) X2 = 1h - 1X 1X + 2X = 1h X(1 + 2) = 1h
X
1 .h 2 2
fp então: X fp fan . h e substituindo-se “X” na relação inicial Mo = li + X, temos que:
M o li
fp .h fan fp
Para a dedução desta fórmula para dados agrupados em classes de freqüência o autor utilizou os mesmos conceitos prévios do processo de Czuber. A moda de King para o exemplo das peças vendidas:
As propostas de Czuber e King para a moda elaborada apresentam certa similaridade em seu raciocínio e diferem no que se refere às freqüências. King baseia-se na influência das freqüências adjacentes sobre a classe modal e Czuber leva em consideração não apenas as freqüências das classes adjacentes, mas também da freqüência da classe modal.
39
Foi possível observar no exemplo que o cálculo da moda não apresentou os mesmos resultados, o que geralmente ocorre em virtude do processo adotado. A moda faz parte das medidas de tendência central – média, mediana e moda – utilizadas na análise da assimetria/simetria e curtose. É um parâmetro fácil de calcular e não é afetada pelos valores extremos A moda indica ao calçadista o número ou numeração de calçados mais vendidos, indica o salário predominante na empresa, entre outros usos do cotidiano. Pode-se afirmar que para descrever distribuições bimodais é interessante identificar as duas modas, pois além de acentuadas podem evidenciar características que a média e a mediana não podem descrever. Uma das desvantagens da moda, deve-se ao fato dela usar todos os dados disponíveis e poder estar afastada do centro das observações. Ao pesquisador cabe a tarefa de identificar em que situação deve usar a moda como medida descritiva. Ex: Seja a distribuição:
Então: a classe modal é i = 3, logo Mo = 160 pontos
Exercício: Calcule a moda da seguinte distribuição:
40
41
42
AULA 9
5.3 Mediana (Md)
A mediana é o número que se encontra no centro de uma série de números, ou seja, separa os valores em dois subconjuntos de mesmo número de elementos.
Caso 1 ) Dados não agrupados Dada uma série de valores:
5,13,10,2,18,15,6,16,9
Deve-se então ordená-los:
2,5,6,9,10,13,15,16,18
Determina-se então o valor central que é 10 (4 valores para cada lado) Md = 10
Se a série tiver número par de valores, a mediana é a média dos dois valores centrais:
2,5,6,9,10,15,16,18
Md = (9+10)/2 = 9,5
43
Caso 2 ) Dados agrupados
No caso de distribuição de freqüência deve-se primeiramente determinar a freqüência acumulada. Determina-se então, o valor que divide a distribuição em duas partes iguais. Aplica-se então:
f
i
2
a) sem intervalos de classe. Dada a série: no de filhos (xi) que se deseja ter
Então:
fi
Fi
0
2
2
1
6
8
2
10
18
3
12
30
4
4
34
Total
34
f 34 17 i
2
2
A menor freqüência acumulada que supera esse valor é 18, que corresponde ao valor 2 da variável.
Md = 2
No caso de
f F acontecer, a mediana será dada por: Md x x i
2
i
i
2
i 1
. Exemplo:
44
i
no de filhos (xi) que se deseja ter
fi
Fi
1
0
2
2
2
1
6
8
3
2
10
18
4
3
12
30
5
4
6
36
Total
36
f 18 F , então: Md 2 3 2,5 i
3
2
2
Exercícios: 1) Calcule a mediana das seguintes distribuições: i Qtde de anos de fi Fi estudo (xi) 1
13
6
2
14
14
3
15
24
4
16
16
5
17
8
Total
i
Qtde de disciplinas em dependência
fi
1
0
2
2
1
5
Fi
45
3
2
9
4
3
7
5
4
6
6
5
3
Total
b) com intervalos de classe: segue-se os seguintes passos: 1o - Determina-se as freqüências acumuladas 2o - Calcula-se
f
i
2
3o - Marca-se a classe correspondente a freqüência acumulada imediatamente superior a
f (classe mediana) e emprega-se a fórmula: i
2
fi F ant h 2 Md i fi onde: é o limite inferior da classe mediana F(ant) é a freqüência acumulada da classe anterior a classe mediana h é a amplitude do intervalo da classe mediana fi é a freqüência do intervalo da classe mediana Exemplo: i
Total de pontos
fi
Fi
1
150 |- 154
4
4
2
154 |- 158
9
13
3
158 |- 162
11
24
46
4
162 |- 166
8
32
5
166 |- 170
5
37
6
170 |- 174
3
40
Total
40
f 40 20 , logo classe mediana é i = 3 = 158 i
2
2
Md 158
No caso de
F(ant) = 13
h=4
f3 = 11
20 13 4 158 2,5 160,5 11
f F acontecer, a mediana será o limite superior da classe correspondente. i
2
i
47
Exercício: Calcule a mediana das seguintes distribuições:
i
Salário Mensal dos alunos do 4o Adm [R$]
fi
1
450 |- 550
8
2
550 |- 650
10
3
650 |- 750
11
4
750 |- 850
16
5
850 |- 950
13
6
950 |- 1050
5
7
1050 |- 1150
1
Total
64
Fi
i
Valor da hora de trabalho de profissionais de uma empresa de consultoria [R$]
fi
1
30 |- 50
2
2
50 |- 70
8
3
70 |- 90
12
4
90 |- 110
10
5
110 |- 130
5
Fi
Total
AULA 10 48
5.4 Os Quartis
Denomina-se quartis os valores de uma série que a dividem em quatro partes iguais. Portanto, há três quartis. São mais aplicados em distribuição de freqüência com intervalos de classe.
Primeiro Quartil (Q1) - 25 % dos dados são menores que ele e os 75 % restantes são maiores. Segundo Quartil (Q2) - coincide com a mediana, 50 % para cada lado. Terceiro Quartil (Q3) - 75 % dos dados são menores que ele e os 25 % restantes são maiores.
Para o caso de dados agrupados, basta aplicar:
k fi 4
, sendo k o número de ordem do
quartil. Então:
fi 2 fi Fant h Fant h 4 4 Q1 i Q2 i fi fi 3 fi Fant h 4 Q3 i fi
49
Exemplo: i
Total de Pontos
fi
Fi
1
150 |- 154
4
4
2
154 |- 158
9
13
3
158 |- 162
11
24
4
162 |- 166
8
32
5
166 |- 170
5
37
6
170 |- 174
3
40
Total
40
Primeiro Quartil
f 40 10 , logo classe do 1 Quartil é i = 2 i
o
4
4
= 154
h=4
f2 = 9
Q1 154
10 4 4 154 2,66 156,66 156,7
F(ant) = 4
9
Segundo Quartil = Mediana
2 f i 4
40 20 , logo classe do 2o Quartil é i = 3 2
h=4
= 158
F(ant) = 13
f3 = 11
Q 2 Md 158
20 13 4 158 2,5 160,5 11
Terceiro Quartil 50
3 f i 4
3 40 30 , logo classe do 3o Quartil é i = 4 4
h=4
f4 = 8
Q3 162
30 24 4 162 3 165
= 162
F(ant) = 24
8
Exercício: Calcule os quartis da seguinte distribuição: i
Salário Mensal dos alunos do 4o Adm [R$]
fi
1
450 |- 550
8
2
550 |- 650
10
3
650 |- 750
11
4
750 |- 850
16
5
850 |- 950
13
6
950 |- 1050
5
7
1050 |- 1150
1
Total
64
Fi
5.5 Os Percentis
51
Denomina-se percentis os noventa e nove valores que separam uma série em 100 partes iguais. Indica-se da seguinte forma: P1,P2,P3,...P99 Note-se que: P50 = Md, P25 = Q1 e P75 = Q3 Calcula-se da mesma forma que os quartis, só que aplicando:
k fi 100
, sendo k o número de ordem do percentil.
k fi Fant h 100 PK i fi Exemplo: i
Total de Pontos
fi
Fi
1
150 |- 154
4
4
2
154 |- 158
9
13
3
158 |- 162
11
24
4
162 |- 166
8
32
5
166 |- 170
5
37
6
170 |- 174
3
40
Total
40
Tem-se para o oitavo percentil:
k 8
8 f i 100
8 40 3,2 , logo classe do 8o Percentil é i = 1 100
= 150 F(ant) = 0 h=4
52
f1 = 4
P8 150
3,2 0 4 150 3,2 153,2 4
Exercício: Calcule o percentil de ordem 20 da seguinte distribuição:
i
Salário Mensal dos alunos do 4o Adm [R$]
fi
1
450 |- 550
8
2
550 |- 650
10
3
650 |- 750
11
4
750 |- 850
16
5
850 |- 950
13
6
950 |- 1050
5
7
1050 |- 1150
1
Total
64
Fi
53
AULA 11
Boxplot Um tipo de gráfico muito útil para a descrição de dados, visualização de sua variabilidade, comparação entre diferentes grupos é o gráfico em caixas,(boxplot). Foi introduzido pelo estatístico americano John Tukey em 1977. Para a construção do boxplot obtêm-se primeiro as seguintes estatísticas,ou seja o resumo de cinco pontos:1o quartil (Q1), mediana (Q2), 3o quartil (Q3) e a distância interquartílica definida como DIQ = Q3 – Q1. O boxplot é obtido seguindo-se os seguintes passos: 1. Numa reta são marcados o 1o quartil (Q1), a mediana (Q2) e o 3o quartil (Q3). 2. Acima dessa reta constrói-se um retângulo com limites iguais às posições do primeiro e terceiro quartis, cortado por um segmento de reta na posição relativa à mediana. 3. A partir dos limites do retângulo, traçam-se linhas até: a) encontrar um extremo (valor máximo ou mínimo) ou b) um valor correspondente a 1,5 DIQ, se o extremo correspondente estiver a mais de DIQ do quartil respectivo. Os pontos que são maiores do que Q3+1,5 DIQ ou menores do que Q1-1,5 DIQ são chamados de pontos extremos (outliers). Existem símbolos especiais para representar no boxplot os pontos extremos. Um esquema de boxplot é apresentado na figura abaixo:
O boxplot também fornece informações importantes sobre o comportamento do conjunto de dados, como simetria e variabilidade. Se a amplitude for muito maior que a distância interquartílica e a mediana estiver mais próxima do 1o quartil do que do 3o quartil, há forte indicações de assimetria positiva e de grande dispersão das observações. Exemplo: Tendo a seguinte amostra: 3 15 17 18 21 21 22 25 27 30 38 49 68, vamos construir o Box para essa amostra Observações atípicas (outlier)
54
É muito comum aparecerem entre os dados coletados, observações atípicas (outliers), isto é, valor muito grande ou muito pequeno em relação aos demais. Um conjunto de dados pode apresentar apenas um ou vários outliers. Observações atípicas alteram enormemente as médias e variabilidade dos grupos a que pertencem e podem até mesmo distorcer as conclusões obtidas através de uma análise estatística padrão. Portanto, é de fundamental importância detectar e dar um tratamento adequado a elas. É bom fazer uma inspeção dos dados no início da análise estatística, através das técnicas descritivas de dados. Causas do aparecimento de outliers Dentre as possíveis causas do aparecimento de outliers, pode-se citar as seguintes: experimento ou na tomada da medida.
que está sendo medido).
Como detectar outliers Os outliers podem ser detectados simplesmente por uma verificação lógica dos dados, através de gráficos específicos ou ainda através de teste apropriados. Uma forma gráfica usual é o boxplot. Exemplo: A distribuição do retorno de capital em semestres. Tempo de retorno Freqüência absoluta Frequência Acumulada (semestres) 2 8 8 3 25 33 4 13 46 5 3 49 6 1 50 17 1 51 Total 51 O valor 17 semestres está muito fora do padrão (3 semestres segundo a prática), o que é confirmado construindo-se no boxplot abaixo:
2 2,5 3
4
6
17
Foi identificado o outlier: 17. Baseado nos estudo da area considerando o tipo de investimento, o investimento que teve retorno aos 17 semestres era em um local periférico de uma grande cidade, enquanto que os demais analisados se localizavam próximo ao centro da cidade. 55
Medidas a serem tomadas Quando um outlier é detectado, duas medidas podem ser tomadas: abandoná-lo ou conserválo. Existem justificativas para cada uma dessas medidas e o tipo de análise pode variar, dependendo se o outlier foi ou não eliminado. Um outlier deve ser eliminado da análise quando houver uma justificativa convincente para isto, por exemplo quando a observação é incorreta ou houve erro na execução do experimento ou na medida tomada. Após a eliminação do outlier pode-se fazer a análise estatística usandose apenas as observações restantes, ou uma análise mais sofisticada, que foge ao nível deste texto. Por outro lado, se nenhuma explicação pode ser dada à observação atípica, o outlier pode refletir uma característica do que está sendo estudado. Neste caso, tal observação deve ser incluída na análise e um tratamento especial deve ser dado aos dados. Por exemplo, pode-se usar uma ponderação da influência das observações ou alternativamente uma transformação ( x , logx, etc.) da variável estudada.
Exercícios de Concursos. 1: FUNIVERSA - 2010 - CEB - Estatístico Para saber das condições dos animais de uma fazenda, será realizada uma pesquisa por amostragem estratificada, a partir de uma amostra de 15 animais. A tabela seguinte apresenta o efetivo de animais dessa fazenda.
Com base nessas informações, a quantidade de bovinos e suínos que serão usados na pesquisa é de a) 5 b) 6 c) 7 d) 8 e) 9
56
2 -CESGRANRIO - 2008 - CAPES - Assistente em Ciência e Tecnologia Considere os gráficos apresentados a seguir, referentes às respostas dadas por 120.082 ingressantes e 71.508 concluintes de determinada área à questão que perguntava sobre o meio mais utilizado para se manter atualizado acerca dos acontecimentos do mundo contemporâneo.
A proporção de alunos respondentes, deste curso, que fazem uso da TV para se manterem atualizados é a) 77,4%. b) 40,5%. c) 39,2%. d) 38,7%. e) 36,9%.
57
AULA 12
3: CESGRANRIO - 2008 - CAPES - Assistente em Ciência e Tecnologia
A variação percentual total do número de bolsas de mestrado concedidas pela Capes nesse período de oito anos foi a) -14.4%. b) - 8.8%. c) 0,0%. d) + 8,8%. e) + 14,4%.
4: CESGRANRIO - 2008 - CAPES - Assistente em Ciência e Tecnologia A amplitude do número de bolsas de doutorado oferecidas pela Capes nesse período foi a) 672.
b) 1.280.
c) 1.298.
d) 2.204.
e) 2.443.
58
5: CESGRANRIO - 2011 - Petrobrás - Administrador Júnior
No histograma acima, os pontos médios das classes inicial e final são 40 e 80, respectivamente. Sabendo-se que todas as classes têm a mesma amplitude, a estimativa adequada para a média e para a mediana dessa distribuição são, respectivamente, a) 59,5 e 59,5 b) 59,5 e 60 c) 60 e 59 d) 60 e 59,5 e) 60 e 60
6: FCC - 2006 - BACEN - Analista Administrativo - Tarde O histograma de freqüências absolutas a seguir foi elaborado com base nas informações contidas na revista “O Empreiteiro”, de junho de 2005, que demonstra o compor- tamento das empresas construtoras do ramo da construção civil no Brasil que obtiveram faturamento em 2004 maior ou igual a 15 milhões de reais e menor ou igual a 120 milhões de reais
59
Com base nestas informações, obteve-se a média aritmética do faturamento das empresas deste estudo, considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. Com relação ao total de empresas deste histograma, o valor encontrado para esta média pertence ao intervalo de classe que contém a) 24% das empresas b) 16% das empresas. c) 9% das empresas. d) 7% das empresas. e) 5% das empresas.
7• CESGRANRIO - 2008 - CAPES - Assistente em Ciência e Tecnologia Seja o gráfico a seguir, relativos à Avaliação Trienal dos cursos e programas de pósgraduação realizada pela Capes em 2007.
O conceito médio atribuído aos programas avaliados nesse período é a) 1,7.
b) 2,8. c) 3,8. d) 4,0. e) 7,0.
60
AULA 13
8: CESPE - 2009 - CEHAP-PB - Administrador O custo médio nacional para a construção de habitação com padrão de acabamento normal, segundo levantamento realizado em novembro de 2008, foi de R$ 670,00 por metro quadrado, sendo R$ 400,00/m2 relativos às despesas com materiais de construção e R$ 270,00/m2 com mão-de-obra. Nessa mesma pesquisa, os custos médios regionais apontaram para os seguintes valores por metro quadrado: R$ 700,00 (Sudeste), R$ 660,00 (Sul), R$ 670,00 (Norte), R$ 640,00 (Centro-Oeste) e R$ 630,00 (Nordeste). Sistema Nacional de Pesquisa de Custos e Índices da Construção Civil. SINAPI/IBGE, nov./2008 (com adaptações). Com base nas informações apresentadas no texto, assinale a opção correta.
a) A média aritmética dos custos médios regionais por metro quadrado é igual ao custo médio nacional do metro quadrado. b) O custo médio por metro quadrado relativo à região Sul corresponde à mediana dos custos médios regionais por metro quadrado. c) Mais de 65% do custo médio nacional do metro quadrado é relativo às despesas com materiais de construção. d) O custo médio por metro quadrado relativo à região Sudeste é 10% superior ao custo relativo à região Nordeste.
9: FCC - 2010 - TRF - 4ª REGIÃO - Analista Judiciário - Área Administrativa Em uma empresa, a quantidade de empregados do sexo masculino supera em 100 a quantidade de empregados do sexo feminino. A média dos salários dos homens é igual a R$ 2.000,00 e a das mulheres R$ 1.800,00. Se a média dos salários de todos os empregados é igual a R$ 1.920,00, então a quantidade de empregados do sexo masculino é igual a a) 600. b) 500. c) 400. d) 300. e) 200. 61
10: FCC - 2010 - TRF - 4ª REGIÃO - Analista Judiciário - Área Administrativa Um levantamento realizado em um setor de um órgão público, durante 250 dias úteis, forneceu a distribuição dos números de processos analisados apresentada no gráfico abaixo. No eixo horizontal constam as quantidades detectadas de processos e as colunas representam as respectivas quantidades de dias.
Com relação a este levantamento, a média aritmética (número de processos por dia), a mediana e a moda são iguais, respectivamente, a a) 3,48; 3,50 e 4,00. b) 3,48; 4,00 e 4,00. c) 4,35; 3,50 e 3,50. d) 4,35; 3,50 e 4,00. e) 4,00; 4,00 e 4,00.
62
11 FCC - 2006 - BACEN - Analista Administrativo - Tarde Instruções: Considere a distribuição de freqüências a seguir para resolver as questões de números 42 a 44.
O valor da mediana dos salários dos empregados da empresa XYZ, obtida pelo método da interpolação linear, é igual a a) R$ 3 500,00 b) R$ 3 625,00 c) R$ 3 650,00 d) R$ 3 800,00 e) R$ 4 000,00
12: FCC - 2008 - MPE-RS - Assessor - Área Administração Considere o histograma abaixo que apresenta a distribuição dos salários dos empregados em uma empresa no mês de dezembro de 2007:
63
O valor da mediana dos salários dos empregados, considerando os intervalos de classe do histograma abertos à esquerda e fechados à direita e utilizando o método da interpolação linear, é igual a a) R$ 5.125,00. b) R$ 4.125,00. c) R$ 5.075,00. d) R$ 4.750,00. e) R$ 3.750,00.
13: FCC - 2006 - BACEN - Analista Administrativo - Tarde Instruções: Considere a distribuição de freqüências a seguir
O valor da moda, obtida com a utilização da Fórmula de Czuber*, é igual a (desprezar os centavos na resposta)
a) R$ 3.201,00 b) R$ 3.307,00 c) R$ 3.404,00 d) R$ 3.483,00 e) R$ 3.571,00
64
14: FCC - 2011 - INFRAERO - Estatístico A tabela de frequências relativas abaixo corresponde à distribuição da renda mensal das pessoas que adquiriram pacotes de excursão de uma empresa de turismo em 2010. O valor da média aritmética da renda (Me) foi obtido considerando que todos os valores incluídos num certo intervalo de classe são coincidentes com o ponto médio deste intervalo. O valor da mediana (Md) foi obtido pelo método da interpolação linear.
O valor da moda (Mo), obtido pela relação de Pearson: Mo = 3Md - 2Me , é igual a a) R$ 4.250,00. b) R$ 4.500,00. c) R$ 4.750,00. d) R$ 5.000,00. e) R$ 5.250,00.
65
AULA 14
6.2 Variância (s2) e Desvio Padrão (s) São mais estáveis que a amplitude total, não sofrem tanto a interferência de valores extremos. Já vimos, que a soma dos desvios em relação a média, é zero Verifica-se também que a soma dos quadrados dos desvios em Relação a média, é um valor mínimo, e assim criou-se essa grandeza, chamada variância, determinada da seguinte maneira : a) para dados não agrupados A variância é a média aritmética dos quadrados dos desvios:
A variância é um número em unidade quadrada em relação a média, por isso, definiu-se o desvio padrão como a raiz quadrada da variância.
O desvio padrão é a raiz quadrada da média aritmética dos quadrados dos desvios. Para evitar o acúmulo de erro por arredondamento, simplifica-se o cálculo do desvio padrão com a seguinte:
que resulta em:
Obs: Quando calcula-se a variância ou o desvio padrão de uma população através de uma amostra dessa, deve-se substituir o denominador n por n-1. 66
Propriedade: 1ª: Somando-se (ou subtraindo-se) uma constante a (de) todos os valores de uma variável, o desvio padrão não se altera. 2ª: Multiplicando-se todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado por essa constante. Exemplo: Calcule o desvio padrão da seguinte série:
b) para dados agrupados sem intervalos de classe: deve-se levar em conta as freqüências.
Exemplo:
67
Exercício: Determine o desvio padrão
68
AULA 15
c) para dados agrupados com intervalos de classe: também leva-se em conta as freqüências e xi é o ponto médio do intervalo de classe.
Exemplo:
Resolva: Calcule o desvio padrão pelo processo breve.
69
d) Significado do Desvio Padrão
É um parâmetromuitousadoemestatísticaqueindicaograu de variação de um conjunto de elementos. Exemplificando. Se medirmos a temperaturamáximadurantecincodiasemumacidadeeobtivermososseguintesvalores, 28°, 29°, 29°, 29°e 30°, podemosdizerque a médiadessescincodiasfoi 29°.
Emoutracidade, as temperaturasmáximas nesses mesmosdiaspodemtersido 19°, 20°,29°,29° e 48°. No segundocaso, a média dos trêsdiastambémfoi de 29°. As médiastêmomesmo valor, masosmoradoresdaprimeiracidadeviveramcincodias de calor, enquantoosdasegundativeramtresdias de calore um de frio. Para diferenciarumamédiadaoutra, foicriada a noção de desviopadrão, que serve paradizeroquantoosvalores dos quais se extraiu a médiasãopróximosoudistantesdaprópriamédia. No exemploacima, odesviopadrãodasegundacidadeémuitomaiorqueodaprimeira.
Uma das aplicaçõesmaiscomuns do desviopadrãoéparacálculodaclassificação no vestibular. Se doiscandidatosaomesmocursotiram nota 7 emprovasdiferentes, o peso desseresultadovaidepender do desviopadrão de cadaexame. Digamosque a média das notasnasduasprovastenhasido 5. aquelequeobteve 7 naprovacujodesviopadrãofoimenor, serámaisconsideradoporquesignificaqueeleconseguiu um 7 em um exameemquequasetodomundoficoupróximo a 5. enquantoooutroconquistou um 7 emumaprovaondemuitosoutrostambémtiraramnotasaltas.
Desvio padrão é uma medida de dispersão dos valores de uma distribuição normal em relação à sua média. Complexo? Vejamos por exemplo o mercado de capitais.
Será que o mercado, ou os retornos do mercado, segue uma distribuição normal? Não, os dados históricos nos mostram que não. É mais plausível atribuir uma distribuição log-normal aos retornos do mercado, ou seja, onde o logaritmo das grandezas dos retornos segue uma distribuição normal, mas ainda assim é impossível afirmar que o mercado segue esse tipo de distribuição. Os retornos do mercado são imprevisíveis, mas uma distribuição normal é um bom ponto de partida na tentativa de mensurar os possíveis retornos futuros, mesmo que com algumas falhas.
70
Na tabela temos os valores hipotéticos de um ativo.
Somando a média com mais um (+1) e menos um (-1) desvio, obtemos a primeira faixa de dispersão dos valores no gráfico. Fazemos o mesmo para dois e três desvios. Veja o significado dos valores no gráfico:
Em vermelho tracejado temos a média dos valores do ativo hipotético para o período estudado.
Entre as linhas azuis temos os valores encontrados dentro de mais um (+1) e menos um (-1) desvio padrão.
Entre as linhas laranja temos os valores encontrados dentro de mais dois (+2) e menos dois (-2) desvios padrão.
71
Entre as linhas verdes temos os valores encontrados dentro de mais três (+3) e menos três (-3) desvios padrão.
Na prática, o que isso significa?
O ponto mais importante de uma distribuição normal vem a seguir, as probabilidades dos valores acontecerem longe da média. É isso que você deve aprender e ter em mente. Acompanhe:
68,26% dos valores de uma distribuição normal encontram-se dentro da faixa de um desvio padrão, tanto para mais quanto para menos em relação à média.
95,44% dos valores de uma distribuição normal encontram-se dentro da faixa de dois desvios padrão, tanto para mais quanto para menos em relação à média.
99,72% dos valores de uma distribuição normal encontram-se dentro da faixa de três desvios padrão, tanto para mais quanto para menos em relação à média.
72
Esse tipo de relação é representada pelo gráfico a seguir, conhecido como “Bell Curve”, ou curva do sino.
Que tipo de vantagem, se é que existe alguma vantagem, podemos tirar do comportamento dos valores dentro de uma distribuição?
Alguns operadores compram ativos quando estes rompem as bandas inferiores de bollinger e/ou vendem ativos quando os preços rompem as bandas superiores, justamente porque as bandas de bollingerplotam uma média e dois desvios padrão para cima e para baixo, e como pudemos observar, 95,44% dos valores se encontram dentro dessa faixa. Ou seja, é plausível esperar um possível retorno dos preços à média, apesar de os retornos do mercado não serem considerados uma distribuição normal, como já vimos
Exercícios de Revisão: Os dados abaixo referem-se a idade das pessoas que compraram um determinado produto novo durante um dia. Determine:
73
Tamanho da Amostra para populações finitas
n = tamanho da amostra N = tamanho da população e = % de erro na forma unitária z = intervalo de confiança, 1,96 para 95% de confiança (valor usual) 2,58 para 99% de confiança. x/n = proporção esperada. O valor de n é máximo para x/n = 0,50
Resultando em:
74
Exemplo:
População Amostra População Amostra 100000 2345 10000 1936 200000 2373 20000 2144 300000 2382 30000 2223 400000 2387 40000 2265 500000 2390 50000 2291 600000 2391 60000 2309 700000 2393 70000 2321 800000 2394 80000 2331 900000 2395 90000 2339 1000000 2395 100000 2345
População Amostra 1000000 2395 2000000 2398 3000000 2399 4000000 2400 5000000 2400 6000000 2400 7000000 2400 8000000 2400 9000000 2400 10000000 2400 115000000 2401
Cálculo do erro
para população desconhecida
para população conhecida
para z = 1,96 e x/n = 0,50 tem-se:
para população desconhecida
para população conhecida
75
76
AULA 16
MEDIDA DE DISPERSÃO RELATIVA Notação: CV = coeficiente de variação de Pearson ou apenas coeficiente de variação. Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio padrão de 3 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 300; no entanto, se a média for igual a 30, o mesmo não pode ser dito. Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes. Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CV: Coeficiente de Variação de Pearson (é a razão entre o desvio padrão e a média referentes a dados de uma mesma série).
6.3- Coeficiente de Variação (CV)
É a porcentagem do desvio padrão em relação a sua média.
Exemplo: Para o exemplo anterior, das estaturas, tem-se média de 161 cm e desvio padrão de 5,57 cm
Resolva: Calcule o CV dos dois últimos exercícios de cálculo de desvio padrão pelo processo breve.
a)
b)
Conclusão: Quanto maior o CV maior será a dispersão; Quanto menor o CV menor será a dispersão 77
Exemplo: Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos:
Qual das medidas (Estatura ou Peso) possui maior homogeneidade ? Resposta: Teremos que calcular o CVP da Estatura e o CVP do Peso. O resultado menor será o de maior homogeneidade ( menor dispersão ou variabilidade). CVPestatura = ( 5 / 175 ) x 100 = 2,85 % CVPpeso = ( 2 / 68 ) x 100 = 2,94 %. Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos. Baixa dispersão: CV 15% Média dispersão: CV 15-30% Alta dispersão: CV 30% Uma desvantagem do C.V. é que ele deixa de ser útil quando a média esta próximo de zero.
CVT: Coeficiente de Variação de Thorndike É igual ao quociente entre o desvio padrão e a mediana. CVT = S / Md ou
CVT = (S / Md) x 100 quando queremos o resultado em %.
CVQ: Coeficiente Quartílico de Variação Esse coeficiente é definido pela seguinte expressão: CVQ = (Q3 - Q1) / (Q3 + Q1) ou [(Q3 - Q1) / (Q3 + Q1)] x 100 para resultado em %.
Desvio quartil Reduzido: Dqr = (Q3 - Q1) / 2Md ou [(Q3 - Q1) / 2Md ] x 100 para resultado em %. Exemplo 1- O risco de uma ação de uma empresa pode ser devidamente avaliado através da variabilidade dos retornos esperados. Portanto, a comparação das distribuições probabilísticas dos retornos, relativas a cada ação individual, possibilita a quem toma decisões perceber os 78
diferentes graus de risco. Analise, abaixo, os dados estatísticos relativos aos retornos de 5 ações e diga qual é a menos arriscada :
ERRO PADRÃO DA MÉDIA(Sx) Quando se obtém uma amostra aleatória de tamanho n, estima-se a média populacional. É bastante intuitivo supor que se uma nova amostra aleatória for realizada a estimativa obtida será diferente daquela primeira. Desta forma, reconhece-se que as médias amostrais estão sujeitas à variação e formam populações de médias amostrais diferentes, quando todas as possíveis amostras são retiradas de uma população. O erro padrão analisa a variabilidade de uma média Erro padrão Fornece um mecanismo de medir a precisão com que a média populacional foi estimada
ESCORE PADRONIZADO (Z)
Pode ser interpretado como sendo o número de desvios padrões de média
com relação a
, ou seja,
Exemplo: Um estudante obteve média 7,5 em matemática e 8,0 em economia. Determinar em que disciplina sua posição relativa foi melhor, sabendo-se que a média da classe foi 6,85 com um desvio padrão igual a 1,1 em matemática, e em economia foi 7,75 com desvio padrão igual a 1,6.
79
Solução: Em matemática sua posição relativa é:
Em economia sua posição relativa é:
Logo sua posição relativa melhor foi em matemática, embora sua nota em economia tenha sido melhor.
80