"Jamais considere seus estudos como uma obrigação, mas como uma oportunidade invejável para aprender a conhecer a influência libertadora da beleza do reino do espírito, para seu próprio prazer pessoal e para proveito da comunidade à qual seu futuro trabalho pertencer." Albert Einstein
APRESENTAÇÃO Vivemos em uma sociedade onde, cada vez mais, faz-se necessário desenvolver a capacidade de interpretação de dados estatísticos e análise crítica de informações. Em virtude disto, considera-se necessário a discussão, reflexão e compreensão dos conceitos básicos de estatística. Para isto, o curso de Estatística Básica visa promover o aprendizado dos principais conceitos probabilísticos para explicar a frequência da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos, para modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros e aplicá-los na tomada de decisões, mais acertadas, a curto, médio e longos prazos. Bom proveito!
Prof. Me. Mustafa Gonçalves Sahid Profa. Maylane de Souza P. de Almeida
Sumário 1. Introdução; definição, divisões e fases da estatística; população, amostra, amostragem e tipos de variáveis....................................................................................................................1 2. Tabelas e gráficos............................................................................................................... 6 3. Distribuição de frequência, dados brutos e rol..................................................................12 4. Medidas de posição..........................................................................................................20 4.1 Medidas de tendência central.........................................................................................21 4.1.1 Média aritmética........................................................................................................... 21 4.1.2 Moda............................................................................................................................24 4.1.3 Mediana....................................................................................................................... 27 4.2 Separatrizes....................................................................................................................31 4.2.1 Quartis................................................................................................................... .......31 4.2.2 Quintis.......................................................................................................................... 35 4.2.3 Decis............................................................................................................................36 4.2.4 Percentis................................................................................................................. .....37 5. Medidas de dispersão ......................................................................................................42 5.1 Medidas de variação absoluta........................................................................................44 5.1.1 Amplitude total.............................................................................................................44 5.1.2 Variância......................................................................................................................44 5.1.3 Desvio padrão..............................................................................................................44 5.2 Medidas de variação relativa..........................................................................................53 5.2.1 Coeficiente de variação................................................................................................53 6. Referências bibliográficas.................................................................................................59
1
Aulas 1 e 2 – Introdução; definição; divisões e fases da estatística; população; amostra; amostragem e tipos de variáveis
1. Introdução Grande parte das informações divulgadas pelos meios de comunicação atuais provém de pesquisas e estudos estatísticos. Os índices da inflação, de emprego e desemprego, divulgados e analisados pela mídia, são bons exemplos de aplicações da Estatística no nosso dia a dia. Na prática, a Estatística pode ser empregada como ferramenta fundamental em várias outras atividades humanas. Por exemplo: As indústrias costumam realizar pesquisas entre os consumidores antes do lançamento de um novo produto no mercado; As pesquisas eleitorais fornecem elementos para que os candidatos direcionem a campanha; A pesquisa do desempenho dos atletas ou das equipes em uma partida ou em um campeonato interfere no planejamento dos treinamentos; Emissoras de tevê utilizam pesquisas que mostram a preferência dos espectadores para organizar sua programação;
Na área médica, por exemplo, a Estatística fornece metodologia adequada que possibilita decidir sobre a eficiência de um novo tratamento no combate à determinada doença. A estatística é uma ciência exata que fornece métodos para a coleta, organização,
descrição, análise e interpretação de dados para a utilização dos mesmos na tomada de decisões. Segundo o estatístico Jean-Claude Garnier a estatística passa do certo desconhecido para o conhecido incerto. Por meio de sondagem, de coleta de dados e de recenseamento de opiniões, podemos conhecer a realidade geográfica e social, os recursos naturais, humanos e financeiros disponíveis, as expectativas da comunidade sobre a empresa, e estabelecer suas metas, seus objetivos com maior possibilidade de serem alcançados a curto, médio ou longo prazos.
2
Nesta apostila vamos estudar noções de Estatística, através da construção e interpretação de gráficos e tabelas e do cálculo e análise de medidas de posição e de dispersão com auxílio do Excel e dos aplicativos Estatística Fácil e CTI Estatística. Iniciaremos, então, com as análises dos gráficos que seguem:
3
2. O que é estatística? É a ciência que fornece métodos para coleta, organização, descrição, análise e interpretação dos dados para utilização dos mesmos na tomada de decisões. A Estatística trabalha com fenômenos coletivamente típicos, isto é, com fenômenos ligados a coletividade e que podem ser repetidos. Fenômenos determinísticos: Já se conhece a priori o resultado. Ex.: Preço total a pagar pela aquisição de uma determinada quantidade de um produto. Fenômeno aleatório: Conhecemos todos os possíveis resultados, mas não se sabe o resultado concreto que irá acontecer. Ex.: lançamento de um dado honesto.
3. Divisões de Estatística A Estatística se divide em duas partes: (1) Estatística Descritiva: Responsável pela coleta, organização e descrição dos dados observados. (2) Estatística Indutiva ou Inferencial: Responsável pela análise e interpretação dos dados. A Estatística trabalha com fenômenos de natureza aleatória, logo o cálculo das probabilidades é essencial para o estudo da Estatística indutiva.
4. Fases do método estatístico - Coleta dos dados: Feito através de registros – nascimento, casamento, óbitos, importação e exportação de mercadoria, banco de dados de empresas, questionários, etc.
- Crítica dos dados: Para verificar possíveis erros por parte dos informantes, por distração ou má interpretação das perguntas que lhe forem feitas.
- Exposição ou apresentação dos dados: Tabulação e gráficos.
- Análise dos resultados: Conclusão sobre o todo (POPULAÇÃO) a partir de informações fornecidas por parte representativa do todo (AMOSTRA).
4
5. População, amostra, amostragem e censo População: é o conjunto de indivíduos ou objetos que apresentam pelo menos uma característica comum.
Amostra: é um subconjunto finito de uma população.
Amostragem: é uma técnica especial para recolher amostras, que garante, tanto quanto possível, o acaso na escolha. As razões de se recorrer a amostras são: menor custo e tempo para levantar dados; melhor investigação dos elementos observados.
Exemplo: Digamos que a Secretaria Estadual de Educação queira pesquisar o grau de satisfação dos alunos no que se refere à qualidade da merenda escolar.
População: Alunos da rede estadual. Amostra: Parte do total de alunos que representa o todo (população). Variável em estudo: variáveis que possam informar a satisfação dos alunos com a merenda escolar.
Censo: é o tipo de estudo estatístico que abrange todos os elementos da população.
6. Tipos de variáveis Variável – É, convencionalmente, o conjunto de resultados possíveis de um fenômeno. São tipos de variáveis: Qualitativas: quando seus valores são expressos por atributos. Exemplos: População: Candidatos a um exame de vestibular. Variável: sexo (masculino ou feminino). Quantitativas: Quando seus valores são expressos em números. Podem ser subdivididas em discretas (assumem valores enumeráveis, números inteiros não-negativos, contagens) e contínuas (assumem valores num certo intervalo, medições).
Exemplos: População: casais residentes em uma cidade. Variáveis: Número de filhos (quantitativa discreta)
5
Idade (quantitativa continua) Peso dos alunos (quantitativa contínua)
Atividades 1 e 2 – Introdução; definição; divisões e fases da estatística; população; amostra; amostragem e tipos de variáveis 1. Classifique as variáveis em qualitativas, quantitativas contínuas ou quantitativas discretas.
a) População: Alunos de uma escola. Variável: Cor da pele ___________________________ b) População: Casais residentes em um bairro. Variável: Nº de filhos ___________________________ c) População: Jogadas de um dado. Variável: O ponto obtido em cada jogada______________________ d) População: Peças produzidas por certa máquina. Variável: Número de peças produzidas por hora_________________ e) População: Aparelho produzido em uma linha de montagem. Variável: Nº de defeitos por unidade__________________________
2. Dizer quais dos seguintes itens representam dados discretos e quais representam dados contínuos.
a) Altura de precipitação da chuva em centímetros, de uma cidade durante vários meses do ano. ____________________________ b) Velocidade de um automóvel em km/h._________________________ c) Número de notas de vinte dólares em circulação nos Estados Unidos, em qualquer época. _________________________________ d) Valor total das ações ______________________
vendidas
diariamente
na
Bolsa
de
Valores.
e) Número de estudantes matriculados em uma universidade, em certo número de anos. _____________________________
6
Aulas 3 a 5 – Tabelas e gráficos O objetivo da estatística é sintetizar os valores que uma ou mais variáveis podem assumir e isso ela consegue apresentando esses valores em TABELAS E GRÁFICOS.
1. Tabelas Tabela: é um quadro que resume um conjunto de observações.
2. Gráficos O gráfico estatístico é uma forma de apresentar os dados estatísticos, com o objetivo de mostrar uma impressão mais rápida do fenômeno em estudo, com simplicidade, clareza e veracidade. A representação gráfica fornece uma visão de conjunto mais rápida que a observação direta dos dados numéricos. Por isso, os meios de comunicação com frequência oferecem a informação estatística por meio de gráficos.
2.1 Tipos mais comuns de gráficos Gráfico de segmentos ou linhas Os gráficos de segmento são utilizados principalmente para mostrar a evolução das frequências dos valores de uma variável durante um certo período. A posição de cada segmento indica crescimento, decréscimo ou estabilidade. Já a inclinação do segmento sinaliza a intensidade do crescimento ou decréscimo. Neste tipo de gráfico se estabelece uma correspondência expressa por pares ordenados. A tabela que segue mostra a venda de livros em uma livraria no segundo semestre de determinado ano.
7
Usando os eixos cartesianos, localizamos os seis pares ordenados e construímos um gráfico de segmentos.
Número de livros vendidos 600 500 400
300 200 100
0 Julho
Agosto
Setembro
Outubro
Novembro Dezembro
Gráfico de barras Com base no “desempenho em Matemática” demonstrado pelos alunos de uma classe, um professor elaborou a seguinte tabela:
8
Com os dados da tabela é possível construir o gráfico de barras verticais ou gráfico de colunas:
40% 30% 20% 10% 0% Ins.
reg.
bom
ótimo
Com os dados da mesma tabela podemos construir o gráfico de barras horizontais ou gráfico de barras.
9
Desempenho em Matemática Ótimo Bom Regular Insuficiente 0%
10%
20%
30%
40%
Gráfico de setores (ou gráfico “pizza”) Os gráficos de setores apresentam os dados por meio de um círculo, no qual cada setor indica a quantidade de um valor observado. Nesse tipo de representação, a área e o ângulo de cada setor são diretamente proporcionais à porcentagem que representam em relação ao todo (100%). Ex.: Em um shopping center há três salas de cinema, e o número de espectadores em cada uma delas num determinado dia da semana foi de 300 na sala A, 200 na sala B e 500 na sala C. Veja essa situação representada em uma tabela de frequência: Podemos calcular o ângulo central de cada setor com uma regra de três simples. Exemplo: 100%
360º
20 %
x
x = (20. 360 )/ 100 x = 72º
10
Espectadores por sala
50%
30%
20%
Sala A Sala B Sala C
Gráficos múltiplos Em algumas situações é necessário representar duas ou mais características da amostra. Para facilitar a comparação entre essas características, podemos construir os gráficos múltiplos. Observe alguns exemplos:
11
O avanço da empresa aérea Gol 45,00% 40,00%
Empresas aéreas
35,00% 30,00% VARIG
25,00%
TAM
20,00%
VASP GOL
15,00% 10,00% 5,00% 0,00% 2000
2001
2002
2003
2004
Atividades 3 a 5 – Tabelas e gráficos
1. Construir, no Microsoft Excel, todas as tabelas e gráficos citados nas aulas 3 a 5.
12
Aulas 6 a 10 – Distribuição de frequência, dados brutos e rol
1. Dados brutos Após a coleta de dados relativos a um determinado fenômeno em estudo, que compõem uma amostra, obtemos um conjunto de dados que será tabulado. Por exemplo: TABELA 1: ALTURA DOS ALUNOS 166
160
161
150
162
160
165
167
164
160
162
161
168
163
156
173
160
155
164
168
155
152
163
160
155
155
169
151
170
164
154
161
156
172
153
157
156
158
158
161
Observe que os dados não estão organizados. Dessa forma ela recebe o nome de dados brutos. 2. Rol Precisamos organizar os dados através de uma ordenação crescente ou decrescente. TABELA 2: ALTURA DOS ALUNOS 150
154
155
157
160
161
162
164
166
169
151
155
156
158
160
161
162
164
167
170
152
155
156
158
160
161
162
164
168
172
153
155
156
160
160
161
162
164
168
173
Obteremos uma segunda ordenação que receberá o nome de rol (sequência ordenada dos dados brutos). Dessa forma podemos saber com facilidade qual a menor altura (150) e qual a maior (173); qual a amplitude de variação (173-150=23cm); qual o ponto médio (160+161) / 2 = 160,5. 3. Distribuição de frequência Ainda assim, a variável observada (altura dos alunos) será mais facilmente estudada quando dispusermos os valores ordenados em uma coluna e ao lado de cada valor o número
13
de vezes que aparece repetido. Obtemos dessa forma uma tabela que recebe o nome de distribuição de frequência. ALTURA DOS ALUNOS Altura (cm) 150 151 152 153 154 155 156 157 158 160 161 162 163 164 165 166 167 168 169 170 172 173 Total
Frequência 1 1 1 1 1 4 3 1 2 5 4 2 2 3 1 1 1 2 1 1 1 1 40
Fonte: MEC
4. Distribuição de frequência por intervalo de classe Outra solução aceitável e mais conveniente para diminuir o tamanho da tabela quando o número de valores da variável é grande, seria agrupá-los em vários intervalos. Nesse caso a tabela passa a ser denominada: Distribuição de frequência por intervalo de classe. ALTURA DOS ALUNOS Altura (cm)
Frequência
150 ⌐ 154
4
154 ⌐ 158
9
158 ⌐ 162
11
162 ⌐ 166
8
14
166 ⌐ 170
5
170 ⌐ 174
3
Total
40
Fonte: MEC
Lê-se: 4 alunos têm altura entre 150 e 154 cm (exclusive) – intervalo fechado à esquerda.
5. Critério para calcular o número de classes a ser utilizado Observação: Não é obrigatório! O bom senso também funciona. 5.1 Critério da raiz Se a sequência estatística contém n elementos e se indicarmos por i o número de classes a ser utilizado, então: i n Onde n = número total de observações.
Amplitude do intervalo de classe que chamaremos de h é determinada por: h
AT , i
onde AT é a Amplitude Total e i n Exemplo: n = 40 Então, i 40 = 6,324, portanto o inteiro mais próximo é 6. Devemos trabalhar com o inteiro mais próximo da raiz de n, o inteiro imediatamente anterior e o inteiro imediatamente superior. Logo, as opções para i são: 5, 6 ou 7. Então, a amplitude do intervalo de classe (h) é determinada por:
h
AT L (Max) - l (min) 173 - 150 3,833 4 i i 6
6. Elementos de uma distribuição de frequência (1) Classe (i): São intervalos de variação da variável. Ex.: Intervalo 150 a 154 define a 1ª classe (i=1), i = 1, 2, 3, ......, k i = classe
15
k = número total de classes. (2) Limites de classe: São os extremos de cada classe.
l i = Limite inferior Li = Limite superior Ex.: Na primeira classe: l i = 150 e Li = 154. (3) Amplitude de um intervalo de classe ( hi ): É a medida do intervalo que define a classe. Diferença entre o limite superior e inferior da classe. Ex.: Na primeira classe: l i = 150 e Li = 154.
hi = Li – l i = 154 – 150 = 4 cm. (4) Amplitude total da distribuição (AT): É a diferença entre o Limite superior da última classe e o Limite inferior da primeira classe. AT = L(Max) – l(min) Ex.: 174 – 150 = 24 cm Observe que quando as classes possuem o mesmo intervalo vale a relação:
AT k hi
24/4 = 6
(6 = Número total de classes)
(5) Ponto médio de uma classe ( pmi ): É o ponto que divide o intervalo de classe em duas partes iguais. Ex.: Classe 1: (150 + 154) / 2 = 152 cm
7. Tipos de frequência (1) Frequência simples ou absoluta ( f i ): É o número de observações correspondentes a classe ou a um valor. Exemplo: ALTURA DOS ALUNOS Altura (cm)
fi
150 ⌐ 154
4
154 ⌐ 158
9
158 ⌐ 162
11
162 ⌐ 166
8
16
166 ⌐ 170
5
170 ⌐ 174
3
Total
40
Fonte: MEC
f 1 = 4 => frequência da classe 1 e f 2 = 9 => frequência da classe 2. k
A soma de todas as frequências será:
f
i
i 1
n , n = número total de observações.
(2) Frequência acumulada ( Fi ): É o total das frequências de todos os valores inferiores ao limite superior do intervalo de classe. k
Fi f1 f 2 ..... f k f i i 1
Exemplo: ALTURA DOS ALUNOS Altura (cm)
fi
Fi
150 ⌐ 154
4
4
154 ⌐ 158
9
13
158 ⌐ 162
11
24
162 ⌐ 166
8
32
166 ⌐ 170
5
37
170 ⌐ 174
3
40
Total
40
Fonte: MEC 3
, ou seja, existem 24 alunos com estatura F f f f f 4 9 11 24 3 1 2 3 i i 1
inferior a 162 cm.
(3) Frequência relativa ( fri ): É a razão entre a frequência simples a frequência total.
fri
fi k
f i 1
i
17
Exemplo: ALTURA DOS ALUNOS Altura (cm)
fi
Fi
fri
150 ⌐ 154
4
4
0,1
154 ⌐ 158
9
13
0,225
158 ⌐ 162
11
24
0,275
162 ⌐ 166
8
32
0,2
166 ⌐ 170
5
37
0,125
170 ⌐ 174
3
40
0,075
Total
40
1
Fonte: MEC
fr3
f3
40
f i 1
11 0,275 ; fr5 40
i
f5
40
f
5 0,125 40
i
i 1
(4) Frequência acumulada relativa ( Fri ): É a frequência acumulada da classe dividida pela frequência total da distribuição.
Fi
Fri
k
f
i
i 1
ALTURA DOS ALUNOS Altura (cm)
fi
Fi
fri
Fri
150 ⌐ 154
4
4
0,1
0,1
154 ⌐ 158
9
13
0,225
0,325
158 ⌐ 162
11
24
0,275
0,6
162 ⌐ 166
8
32
0,2
0,8
166 ⌐ 170
5
37
0,125
0,925
170 ⌐ 174
3
40
0,075
1
Total
40
1
Fonte: MEC
Fr3
F3
40
f i 1
i
F 32 24 0,8 0,6 ; Fr4 40 4 40 40 fi i 1
18
8. Representação gráfica de uma distribuição de frequência
8.1. Histograma Quando temos de representar uma distribuição de frequência cuja variável tem seus valores agrupados em intervalos, costumamos utilizar um histograma. O histograma é um gráfico formado por retângulos cujas bases são construídas sobre o eixo das abscissas. As larguras correspondem à amplitude de cada intervalo e as alturas indicam a frequência (absoluta ou relativa) de cada intervalo. Ex.: Vamos construir um histograma para a distribuição de frequência que representa o número de litros de gasolina vendidos por carro no posto RBA.
100
Venda de litros de gasolina por carro 78
Freqüência
80
60
60 40 20
40 23 9
0 Litros
19
8.2. Polígono de frequência Partindo do histograma é possível construir um gráfico de segmentos chamado gráfico de
curva
poligonal
ou,
mais
frequentemente,
polígono
de
frequência.
Venda de litros de gasolina por carro 90 80
78
Freqüência
70 60
60
50 40
40
30 23
20
10
9
0
0 0
0 5
10
15
20
25
30
35
40
Litros
Frequência Acumulada: As bases dos retângulos vão estar centradas nos pontos médios das classes.
Atividades 6 a 10 – Distribuição de frequência, dados brutos e rol 1. Faça a distribuição dos dados abaixo: a) Sendo o limite inferior 30 e o intervalo de classe 10: 84
68
33
52
47
73
68
61
73
77
74
71
81
91
65
55
57
35
85
88
59
80
41
50
53
65
76
85
73
60
67
41
78
56
94
35
45
55
64
74
65
94
66
48
39
69
89
98
42
54
20
b) Dos valores obtidos a partir do lançamento de um dado 50 vezes. 6
5
2
6
4
3
6
2
6
5
1
6
3
3
5
1
3
6
3
4
5
4
3
1
3
5
4
4
2
6
2
2
5
2
5
1
3
6
5
1
5
6
2
4
6
1
5
2
4
3
2. Para analisar o desempenho dos alunos do professor (X), em um bimestre (Y), selecione dois diários de classe e realize todas as seis etapas abaixo: 1) 1ª etapa: levantamento dos dados brutos; 2) 2ª etapa: construção do rol; 3) 3ª etapa: construção da Tabela de Frequência; 4) 4ª etapa: construção da Tabela de Frequência com Intervalos de Classe; 5) 5ª etapa: representação gráfica através do Polígono de Frequência. 6) 6ª etapa: análise gráfica do desempenho dos alunos.
Aulas 11 a 25 – Medidas de posição Estudamos, nas aulas anteriores, a sintetização dos dados resultantes de uma pesquisa sob a forma de tabelas, gráficos e distribuição de frequências que nos permitiu descrever o padrão de variação de um determinado fenômeno estatístico através dos valores que uma variável pode assumir. Agora precisamos de um “indicativo” generalizado, onde será possível resumir ainda mais esses dados, apresentando um ou mais valores que sejam representativos da série estudada.
21
O modo mais comum de se obter esse tipo de informação é através das Medidas de posição, estatística que representa à posição relativa da distribuição em relação ao eixo horizontal. As medidas de posição mais importantes são as Medidas de tendência central – recebem esse nome pelo fato dos dados observados, em geral, se agruparem em torno dos valores centrais. As medidas de posição (ou de tendência central) mais utilizadas são a Média Aritmética, a Moda e a Mediana. Outras medidas de posição, como os Quartis, os Quintis, os Decis e os Percentis, embora sejam medidas de posição, possuem uma característica muito especial: separam os conjuntos em quantidades de iguais valores. Por isso, essas medidas podem ser chamadas de Separatrizes. Essas medidas quando bem interpretadas, podem fornecer informações muito valiosas com respeito às séries estatísticas, ou seja, com estas medidas tenta-se encontrar um valor numérico que represente o comportamento típico da série em estudo.
1. Média aritmética simples ( x ) 1.1 Média para dados não agrupados (dados brutos ou rol): Quando desejamos conhecer a média dos dados não agrupados, determinamos a média aritmética simples. n
x
x i 1
n
i
, onde ( x ) é a média aritmética, ( xi ) os valores da variável e (n) o número de
valores.
Ex.: Produção leiteira diária da vaca A, durante uma semana, foi de 10, 14, 13, 15, 16, 18 e 12 litros. Qual a produção média da semana.
x
10 14 13 15 16 18 12 98 14litros 7 7
1.2 Média para dados agrupados sem intervalo de classe.
22 n
x
x
fi
i
i 1 n
f
, observe que f i é a frequência simples de cada variável que neste caso funciona i
i 1
como fator de ponderação (média aritmética ponderada). Exemplo:
X
f
i
2 4 6 8 TOTAL
X
i
i
2 3 3 2 10
f
i
4 12 18 16 50 4
x
x f
i i
i 1 4
f
2.2 4.3 6.3 8.2 50 5 10 10
i
i 1
1.3 Média para dados agrupados com intervalo de classe. n
x
pm f
i i
i 1
, onde:
n
fi
i 1
( pmi ) é o ponto médio de cada intervalo de classe. ( f i ) a frequência simples de cada intervalo de classe.
Exemplo: Classe
f
0 l-- 2 2 l-- 4 4 l-- 6 6 l-- 8 8 l--10
2 3 2 1 2 10
i
5
x
pm f i
i 1
5
f i 1
i
i
1.2 3.3 5.2 7.1 9.2 46 4,6 10 10
pm 1 3 5 7 9
i
pm i f i 2 9 10 7 18 46
23
Atividades - Média aritmética simples 1. Um produto é vendido em três supermercados por R$ 13,00/kg, R$ 13,20/kg e R$ 13,50/kg. Determine quantos R$/kg se paga em média pelo produto.
2. Uma loja vende cinco produtos básicos A, B, C, D, E. O lucro por unidade comercializada destes produtos vale respectivamente R$ 200,00, R$ 300,00, R$ 500,00, R$ 1.000,00, R$ 5.000,00. A loja vendeu em determinado mês 20, 30, 20, 10, 5 unidades respectivamente. Qual foi lucro médio por unidade comercializada por esta loja?
3. Um caminhão cujo peso vazio é 3.000,00 kg será carregado com 480 caixas de 10 kg cada, 350 caixas de 8 kg cada, 500 caixas de 4 kg cada, 800 caixas de 5 kg cada. O motorista do caminhão pesa 80 kg e a lona de cobertura pesa 50 kg. a) Se este caminhão tem que passar por uma balança que só permite passagens a caminhões com peso de 15 toneladas, este caminhão passará pela balança?
b) Qual o peso médio das caixas carregadas no caminhão?
4. Calcule a Média:
a) Da variável estudada X (idade): 2, 5, 5, 5, 5, 6, 6, 6, 8, 8 IDADES 2 5 6 8 Total
fi
fixi
b) Da variável estudada X (altura dos alunos).
ALTURA DOS ALUNOS Altura (cm)
fi
150 ⌐ 154
4
24
154 ⌐ 158
9
158 ⌐ 162
11
162 ⌐ 166
8
166 ⌐ 170
5
170 ⌐ 174
3
Total
∑fi = 40
Fonte: MEC
5. O salário de 40 funcionários de um escritório está distribuído segundo o quadro abaixo. Calcule o salário médio destes funcionários.
2. Moda (Mo) É o valor que ocorre com maior frequência em uma série de dados. Quando uma série de dados não apresentar moda chamaremos de Amodal. Dois valores na série, duas modas, chamaremos de Bimodal. 2.1 Moda para dados não agrupados (dados brutos ou rol) Exemplo: Dados Brutos Rol de dados Moda Tipo 2,3,4,3,1 1,2,3,3,4 3 Unimodal 2,3,2,4,3,5 2,2,3,3,4,5 Mo1=2 ; Mo2=3 Bimodal 1,2,2,4,4,3,3 1,2,2,3,3,4,4 Mo1=2; Mo2=3; Mo3=4 Trimodal 4,4,2,2,3,3 2,2,3,3,4,4 (ausente) Amodal 2.2 Moda para dados agrupados sem intervalo de classe. Basta verificar o valor da variável de maior frequência.
25
Nº de meninos na família 0 1 2 3 4 Total
fi 2 6 10 12 4 34
Uma vez agrupado os dados basta fixar o valor da variável de maior frequência. A moda nesse caso é 3.
2.3 Dados agrupados com intervalo de classe. A classe que apresentar a maior frequência é denominada classe modal que servirá de base para os seguintes cálculos: a) Moda de KING: Mo l *
f pos f ant f pos
b) Moda de CZUBER: Mo l *
h*
D1 h* D1 D2
Onde : l * é o limite inferior da classe modal f pos é a freqüência simples da classe posterior a classe modal f ant é a freqüência simples da classe anterior a classe modal f * é a freqüência simples da classe modal h * é a amplitude do intervalo da classe modal D1 f * f ant D 2 f * f pos Observação: 1) A moda é utilizada quando desejamos obter uma medida rápida e aproximada de posição ou quando o valor da distribuição deve ser o valor mais típico da distribuição. 2) A moda é uma medida de posição, pois indica a região das máximas frequências.
26
Atividades – Moda 1. Qual a moda e o tipo para os dados agrupados em frequência:
2. Calcule a moda utilizando os métodos de KING e CZUBER.
Classe
fi
0⌐2
2
2⌐4
3
4⌐6
10
6⌐8
3
8 ⌐ 10
2
Total
∑fi = 20
3. O salário de 40 funcionários de um escritório está distribuído segundo o quadro abaixo. Calcule a moda do salário destes funcionários.
4. Uma imobiliária gerencia o aluguel de residências particulares, seguindo o quadro abaixo. Calcule a moda do aluguel para estas residências.
27
5. Calcule a moda para a distribuição de valores de 54 notas fiscais emitidas na mesma data, selecionadas em uma loja de departamentos.
3. Mediana (Md) A mediana é outra medida de posição definida como o número que se encontra no centro de uma série de números, estando estes dispostos segundo uma ordem. Em outras palavras, é o valor que divide o conjunto de dados ordenados em duas metades com mesmo número de elementos.
3.1 Mediana para dados não-agrupados
Dada a série de valores, como, por exemplo: 5, 13, 10, 2, 18, 15, 6, 16, 9 De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores: 2, 5, 6, 9, 10, 13, 15, 16, 18
28
Em seguida, tomamos aquele valor central que apresenta o mesmo número de elementos à direita e à esquerda. Em nosso exemplo, esse valor é o 10, já que, nessa série, há quatro elementos acima dele e quatro abaixo. Se, porém, a série dada tiver um número par de termos, a mediana será, por definição, qualquer dos números compreendidos entre os dois valores centrais da série. Convencionou-se utilizar o ponto médio. Assim, a série de valores: 2, 6, 7, 10, 12, 13, 18, 21 tem para mediana a média aritmética entre 10 e 12.
Logo:
Md
10 12 11 2
3.2 Mediana para dados agrupados sem intervalo de classe
Nesse caso, é o bastante identificar a frequência acumulada imediatamente superior à metade da soma das frequências. A mediana será aquele valor da variável que corresponde a tal frequência acumulada.
3.3 Mediana para dados agrupados com intervalo de classe
Executaremos os seguintes passos: Determinamos as frequências acumuladas Calculamos
n 2
Marcamos a classe correspondente à frequência acumulada imediatamente superior (classe mediana) e em seguida utilizaremos a fórmula:
29
n Fant 2 Md l * h* * f Onde: l * é o limite inferior da classe mediana n é a posição da mediana na série 2 Fant é a freqüência acumulada da classe anterior à classe mediana f * é a freqüência simples da classe mediana h * é a amplitude do intervalo de classe que contém a mediana
Observação: No caso de existir uma frequência acumulada exatamente igual a
n , a Mediana será 2
o limite superior da classe correspondente. Por exemplo: Classes 0 ⌐ 10 10 ⌐ 20 20 ⌐ 30 30 ⌐ 40 40 ⌐ 50 50 ⌐ 60 total
fi 1 3 9 7 4 2 n = 26
Fi 1 4 13 20 24 26
n Fant 2 h * 20 13 4 10 =30 Md l * * 9 f
Nota: Usamos a mediana quando desejamos obter o ponto que divide a distribuição em partes iguais e quando há valores extremos afetando de uma maneira acentuada a média.
30
Atividades – Mediana 1. Calcule a mediana das séries abaixo: a) 2, 3, 5, 4, 5, 2, 5, 7 b) 4, 12, 5, 9, 12, 4, 3 c) 7, 7, 7, 7, 7 d) 4, 5, 6, 6, 6, 7, 8, 8, 8, 9, 10, 10, 10, 11 e) 2, 5, 9, 6, 10, 12 2. Calcule a mediana das idades dos alunos de uma classe:
3. O salário de 40 funcionários de um escritório está distribuído segundo o quadro abaixo. Calcule a mediana.
4. Uma imobiliária gerencia o aluguel de residências particulares, seguindo o quadro abaixo. Calcule a mediana do aluguel para estas residências.
31
5. Calcule a mediana para a distribuição de valores de 54 notas fiscais emitidas na mesma data, selecionadas em uma loja de departamentos.
4. Separatrizes
São números que dividem a sequência ordenada de dados em partes que contêm a mesma quantidade de elementos da série. Em outras palavras, elas nos indicam uma determinada localização em relação ao conjunto de dados sob estudo. Desta forma, a mediana que divide a sequência ordenada em dois grupos, cada um deles contendo 50% dos valores da sequência, é também uma medida separatriz. Além da mediana, as outras medidas separatrizes que destacaremos são: quartis, quintis, decis e percentis.
4.1 QUARTIS: São valores de uma série que a dividem em 4 partes iguais. Assim temos: Q1 = 1º quartil: Separa a sequência ordenada deixando 25% dos valores a sua esquerda e 75% dos valores a sua direita.
32
Q2 = 2º quartil: Separa a sequência ordenada deixando 50% dos valores a sua esquerda e 50% dos valores a sua direita.
Q3 = 3º quartil: Separa a sequência ordenada deixando 75% dos valores a sua esquerda e 25% dos valores a sua direita. Pode-se observar que o 2º quartil e a mediana tem os mesmos valores, pois ambos dividem uma série ordenada em duas partes iguais.
!---------!---------!---------!---------! Q1 Q2 Q3 !-------------------!-------------------! Md
Cálculo do QUARTIL Para o cálculo dos quartis em conjuntos numéricos com dados não agrupados e dados agrupados sem intervalo de classe, basta aplicar a Fórmula abaixo:
f k
i
4
Onde:
k é o número de ordem do quartil;
fi é a soma total das frequências simples. Exemplos: 1. Calcule o Q1 da sequência X: 2, 5, 8, 5, 5, 10, 1, 12, 12, 11, 13, 15. Solução: Ordenar a série (Rol): X: 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15
k
f 4
i
1.
12 3 4
Este valor indica a posição do Q1 no Rol, isto é, o Q1 é o terceiro elemento do Rol. Observando o terceiro elemento do Rol obtém-se:
33
Q1 = 5 Interpretação: 25% dos valores desta sequência são valores menores ou iguais a 5 e 75% dos valores desta sequência são valores maiores ou iguais a 5.
2. Para os dados agrupados em frequência, encontre o primeiro e segundo quartil.
xi
fi
Solução:
Fi
Calculamos 25% de 100 e 50% de 100, obtendo 1
5
5
2
8
13
respectivamente: k
4
27
40
6
30
70
8
20
90
10
10
100
f 4
i
1.
100 f i 2.100 50 25 e k 4 4 4
Estes valores indicam a posição do Q1 e Q2 na tabela, isto é: - Q1 é o 25º elemento da tabela, ou seja: Q1 = 4 - Q2 é o 50º elemento da tabela, ou seja: Q2 = 6
Interpretação Q1: 25% dos valores desta sequência são Σfi = 100
valores menores ou iguais a 4 e 75% dos valores desta sequência são valores maiores ou iguais a 4.
Interpretação Q2: 50% dos valores desta sequência são valores menores ou iguais a 6 e 50% dos valores desta sequência são valores maiores ou iguais a 6. Para dados agrupados, com intervalos de classe, utilizaremos outra Fórmula:
k fi Fant .h * 4 Qk l * f* Onde: k é o número de ordem do quartil (1, 2 ou 3);
34
l * é o limite inferior da classe mediana; F(ant) é a frequência acumulada da classe anterior à classe mediana; f * é a frequência simples da classe mediana; h * é a amplitude do intervalo da classe mediana.
OBS.: É o mesmo cálculo de mediana sendo que
f n deve ser substituído por k i . 2 4
Exemplo: Calcular o primeiro, o segundo e o terceiro quartis da distribuição de frequência abaixo:
Altura dos alunos da Turma A i
Estatura (cm)
fi
Fi
1
150 ⌐ 154
4
4
2
154 ⌐ 158
9
13
3
158 ⌐ 162
11
24
4
162 ⌐ 166
8
32
5
166 ⌐ 170
5
37
6
170 ⌐ 174
3
40
Σfi = 40
Solução: k
f 4
i
1.
10 4 .4 156,67 40 10 (Classe 2) → Q1 154 9 4
Interpretação Q1: 25% dos valores desta sequência são valores menores ou iguais a 156,67 e 75% dos valores desta sequência são valores maiores ou iguais a 156,67. k
f 4
i
2.
20 13 .4 160,54 40 20 (Classe 3) → Q2 158 11 4
35
Interpretação Q2: 50% dos valores desta sequência são valores menores ou iguais a 160,54 e 50% dos valores desta sequência são valores maiores ou iguais a 160,54.
k
f 4
i
3.
30 24 .4 165 40 30 (Classe 4) → Q3 162 8 4
Interpretação Q3: 75% dos valores desta sequência são valores menores ou iguais a 165 e 25% dos valores desta sequência são valores maiores ou iguais que 165.
4.2 QUINTIS: Quando dividimos uma série em 5 partes iguais, cada parte ficará com 20% dos elementos da série. Assim temos: K1 = 1º quintil – separa a sequência ordenada deixando 20% dos valores a sua esquerda e 80% dos valores a sua direita.
K 2 = 2º quintil – separa a sequência ordenada deixando 40% dos valores a sua esquerda e 60% dos valores a sua direita.
K 3 = 3º quintil – separa a sequência ordenada deixando 60% dos valores a sua esquerda e 40% dos valores a sua direita. K 4 = 4º quintil – separa a sequência ordenada deixando 80% dos valores a sua esquerda e 20% dos valores a sua direita.
!---------!---------!---------!---------!---------! K1 K2 K4 K3 Cálculo do QUINTIL É o mesmo cálculo de mediana sendo que
n fi , onde k deve ser substituído por k 2 5
é o número de ordem do quintil.
k fi Fant .h * 5 Kk l* f* Exemplo: Considerando a tabela de distribuição de frequência por intervalo de classe, calcule K2.
36
Altura dos alunos da Turma A i
Estatura (cm)
fi
Fi
Solução: Calculamos 40% de 40, obtendo:
1
150 ⌐ 154
4
4
2
154 ⌐ 158
9
13
3
158 ⌐ 162
11
24
A classe que contém o elemento que
4
162 ⌐ 166
8
32
ocupa a posição 16 na série é a terceira
5
166 ⌐ 170
5
37
6
170 ⌐ 174
3
40
k
f 5
i
2.
40 16 5
(Classe 3)
classe. Esta é a classe que contém o K2. K2 é o 16º elemento da tabela, ou seja:
Σfi = 40
k 2 158
16 13 .4 159,09 11
Interpretação K2: 40% dos valores desta sequência são valores menores ou iguais a 159,09 e 60% dos valores desta sequência são valores maiores ou iguais que 159,09. 4.3 DECIS: Quando dividimos uma série em 10 partes iguais, cada parte ficará com 10% dos elementos da série. Assim temos: D1 = 1º decil – separa a sequência ordenada deixando 10% dos valores a sua esquerda e
90% dos valores a sua direita. D2 = 2º decil – separa a sequência ordenada deixando 20% dos valores a sua esquerda e
80% dos valores a sua direita.
D3 = 3º decil – separa a sequência ordenada deixando 30% dos valores a sua esquerda e 70% dos valores a sua direita. . . .
D8 = 8º decil – separa a sequência ordenada deixando 80% dos valores a sua esquerda e 20% dos valores a sua direita.
D9 = 9º decil – separa a sequência ordenada deixando 90% dos valores a sua esquerda e 10% dos valores a sua direita.
37
!---!---!---!---!---!---!---!---!---!---! D1 D2 D3 D4 D5 D6 D7 D8 D9 Cálculo do DECIL É o mesmo cálculo de mediana sendo que
f n deve ser substituído por k i , onde k 2 10
é o número de ordem do decil.
k fi * F ant .h 10 Dk l * f* Exemplo: Considerando a tabela de distribuição de frequência por intervalo de classe, calcule D3.
Altura dos alunos da Turma A i
Estatura (cm)
fi
Fi
Solução: Calculamos 30% de 40, obtendo:
1
150 ⌐ 154
4
4
2
154 ⌐ 158
9
13
3
158 ⌐ 162
11
24
A classe que contém o elemento que
4
162 ⌐ 166
8
32
ocupa a posição 12 na série é a segunda
k
f 10
i
3.
40 12 10
(Classe 2)
classe. Esta é a classe que contém o D2.
5
166 ⌐ 170
5
37
6
170 ⌐ 174
3
40
D2 é o 12º elemento da tabela, ou seja:
Σfi = 40
D2 154
12 4 .4 154 3,555 157,55 9
Interpretação K2: 30% dos valores desta sequência são valores menores ou iguais a 157,55 e 70% dos valores desta sequência são valores maiores ou iguais que 157,55.
4.4 PERCENTIS ou CENTIL: São valores de uma série que a dividem em 100 partes iguais. Cada parte ficará com 1% dos elementos da série. Assim temos:
38
P1 = 1º percentil: separa a sequência ordenada deixando 1% dos valores a sua esquerda e 99% dos valores a sua direita.
P2 = 2º percentil: separa a sequência ordenada deixando 2% dos valores a sua esquerda e 98% dos valores a sua direita.
P3 = 3º percentil: separa a sequência ordenada deixando 3% dos valores a sua esquerda e 97% dos valores a sua direita. . . . P98 = 98º percentil: separa a sequência ordenada deixando 98% dos valores a sua esquerda e 2% dos valores a sua direita. P99 = 99º percentil: separa a sequência ordenada deixando 99% dos valores a sua esquerda e 1% dos valores a sua direita. !---!---!---!---!---!---!---!---!---!---! P10 P20 P30 P40 P50 P60 P70 P80 P90 Cálculo do PERCENTIL É o mesmo cálculo de mediana sendo que
f n deve ser substituído por k i , onde k 2 100
é o número de ordem do percentil.
k fi * F ant .h 100 Pk l * f* Exemplos: 1. Considerando a tabela de distribuição de frequência por intervalo de classe, calcule P 8. Altura dos alunos da Turma A i
Estatura (cm)
fi
Fi
1
150 ⌐ 154
4
4
2
154 ⌐ 158
9
13
3
158 ⌐ 162
11
24
4
162 ⌐ 166
8
32
5
166 ⌐ 170
5
37
39
6
170 ⌐ 174
3
40
Solução: Calculamos 8% de 40, obtendo: k
f
i
100
8.
40 3,2 (Classe 1) 100
Como não existe na coluna de Frequência Acumulada o valor 3,2, o valor Σfi = 40
imediatamente acima dele é 4. Portanto, nosso percentil (P8) encontra-se na 1ª linha
(ou classe).
P8 150
3,2 0 .4 150 3,2 153,2 4
Interpretação P8: 8% dos valores desta sequência são valores menores ou iguais a 153,2 e 92% dos valores desta sequência são valores maiores ou iguais que 153,2. Se observarmos que os quartis, quintis e decis são múltiplos dos percentis, então basta estabelecer a fórmula de cálculo de percentis. Todas as outras medidas podem ser identificadas como percentis. Ou seja:
Q1 = P25
K1 = P20
D1 = P10
Q2 = P50
K2 = P40
D2 = P20
Q3 = P75
K3 = P60
D3 = P30
K4 = P80
D4 = P40 D5 = P50 D6 = P60 D7 = P70 D8 = P80 D9 = P90
40
2. Calcule o Q3 para a série.
Solução: Como Q3 = P75 , iniciamos calculando 75% de 105, obtendo: k
f
i
100
75.
105 78,75 (Classe 4) 100
Como não existe na coluna de Frequência Acumulada o valor 78,75, o valor imediatamente acima dele é 93. Portanto, nosso Q3 = P75 encontra-se na 4ª linha (ou classe). Substituindo os valores na fórmula obtém-se:
Q3 P75 30
78,75 58 .10 30 5,92 35,92 35
Portanto Q3 = P75 = 35,92. Interpretação: 75% dos valores desta sequência são valores menores ou iguais a 35,92 e 25% dos valores desta sequência são valores maiores ou iguais que 35.92.
Atividades – Separatrizes 1. Se uma série ordenada possui 180 elementos, dê o número aproximado de elementos que situam: a) Acima do P20; b) Abaixo do K3; c) Acima do Q3;
41
d) Abaixo do P90; e) Entre o P10 e o P90; f) Entre o Q1 e o Q3; g) Entre o Q3 e o P80. 2. Uma imobiliária gerencia o aluguel de residências particulares, seguindo o quadro abaixo.
Calcule e interprete: a) Q1
b) K2
c) D3
d) P98
3. A tabela abaixo representa a distribuição de valores de 54 notas fiscais, emitidas na mesma data, selecionadas em uma loja de departamentos.
Calcule e interprete: a) Q3
b) K4
c) D7
d) P75
42
4. Tomando como base o exercício anterior o gerente desta loja decidiu premiar, a nível promocional com um brinde diário, 10% dos fregueses que mais consumirem nos próximos 30 dias. A partir de qual valor de consumo da nota fiscal os clientes seriam premiados?
5. A tabela abaixo representa a venda de livros didáticos em uma editora na primeira semana de março.
Calcule e interprete: a) Q1
b) Q3
c) P90
d) P10
Aulas 26 a 40 – Medidas de dispersão As medidas de dispersão (ou de afastamento) são medidas estatísticas utilizadas para verificar o quanto os valores encontrados em uma pesquisa estão dispersos ou afastados em relação à média ou em relação à mediana. São medidas que servem para verificar com que confiança as medidas de tendência central resumem as informações fornecidas pelos dados obtidos em uma pesquisa. Em outras palavras, servem para avaliar o quanto os dados são semelhantes e o quanto distam do valor central. Imaginemos, por exemplo, duas pessoas que tenham se submetido a um teste. Suponhamos duas situações diferentes: a) as duas pessoas tiraram nota igual a 6,0;
43
b) as duas pessoas tiraram, respectivamente, nota 2,0 e nota 10,0. Nos dois casos, as duas pessoas obtiveram média igual a 6,0. No entanto, no caso “a” elas se concentraram sobre a média e no caso “b” dispersaram-se (afastaram-se) da média. Isso significa dizer que a média é muito mais representativa no caso “a” do que no caso “b”. Mostra, também, que no caso “a” existe uma homogeneidade nos conhecimentos adquiridos pelas pessoas, enquanto no caso “b” existe uma heterogeneidade. Vamos reforçar a importância das medidas de dispersão, por meio de outro exemplo. Consideraremos os três conjuntos abaixo, com seus respectivos valores: X: 70, 70, 70, 70, 70. Y: 68, 69, 70, 71, 72. Z: 5, 15, 50, 120, 160. Vamos calcular a média das idades dos três conjuntos: Solução: Para calcular as médias utilizaremos a fórmula: n
x
x i 1
n
i
, onde ( x ) é a média aritmética, ( xi ) os valores da variável e (n) o número
de valores. Então,
Para X:
x
70 70 70 70 70 350 70 5 5
Para Y:
x
68 69 70 71 72 350 70 5 5
Para Z:
x
5 15 50 120 160 350 70 5 5
Como podemos observar, os três conjuntos possuem a mesma média aritmética: 70.
44
Mas também, podemos notar que o conjunto X é mais homogêneo do que os conjuntos Y e Z; o conjunto Y, por sua vez, é mais homogêneo que o conjunto Z; por fim, o conjunto Z é o mais heterogêneo de todos. Viu? Mesmo possuindo a mesma média, os conjuntos apresentam comportamentos muito diferentes. A isso chamamos de dispersão. No nosso exercício acima, os conjuntos X, Y e Z apresentam como ponto de tendência central para fins de comparação à média. Essa média é a mesma para os três conjuntos: 70. Assim, o conjunto X apresenta dispersão nula, pois não há variação dos valores do conjunto em relação a essa média; o conjunto Y apresenta dispersão menor que o conjunto Z; isso porque os valores de Y estão mais próximos que os do conjunto Z. Em resumo, a estatística recorre às medidas de dispersão (ou de variabilidade) quando deseja qualificar os valores de uma variável, ressaltando a maior ou menor dispersão entre esses valores e a sua medida de posição. Dessas medidas, estudaremos as seguintes:
Medidas de variação absoluta: Amplitude total, Variância e o Desvio Padrão.
Medidas de variação relativa: Coeficiente de Variação.
(1) Medidas de variação absoluta 1.1 Amplitude Total: É a diferença entre o maior e o menor valor observado. Tem o inconveniente de só levar em conta os dois valores extremos da série, não levando em consideração os valores intermediários. Ela é apenas uma indicação aproximada da dispersão ou variabilidade. AT = L (Max) – l (min) 1.2 Variância ( (2x ) ): É uma média aritmética calculada a partir dos quadrados dos desvios obtidos entre os elementos da série e sua média. 1.3 Desvio Padrão ( ( x ) ): É a medida da variação, da dispersão, de um conjunto. Em outras palavras, é a raiz quadrada da variância. Desvio Padrão: ( x ) x
2
Observação: (1) O desvio padrão sempre será positivo!
45
(2) O desvio padrão de uma série indica o quanto os dados estão afastados da média e que, se os dados são iguais, o valor da medida é zero. (3) Quanto maior for o desvio padrão, maior será a variação entre os valores. A variância e o desvio padrão são medidas que levam em consideração a totalidade dos valores da variável em estudo, o que faz delas índices de variabilidade bastante estáveis e, por isso mesmo, os mais geralmente empregados.
Cálculo da Variância e do Desvio padrão para dados não-agrupados Suas fórmulas, quando os dados representam todos os valores de uma população são: n
Variância : (2x )
( xi x ) 2 i 1
n
n
DESVIO PADRÃO ( x )
(x
i
x)2
i 1
n
Suas fórmulas, quando se tratar de dados amostrais são: n
Variância : s(2x )
( xi x ) 2 i 1
n 1
n
PADRÃO DESVIO s( x )
(x
i
x )2
i 1
n 1
Onde: ( xi ) são os valores da variável; ( x ) é a média aritmética; (n) é a soma das frequências Etapas do cálculo da Variância: 1ª. Calcular a média aritmética x ; 2ª. Subtrair a média x de cada valor x i do conjunto xi x , o que chamamos de desvio; 3ª. Elevar cada desvio ao quadrado ( xi x ) 2 ; 2
n
4ª. Somar os quadrados dos desvios
x i 1
i
x ;
5ª. Dividir a soma por (n - 1) quando se tratar de dados amostrais, ou simplesmente por n se os dados representam todos os valores de uma população.
46
De volta aos conjuntos X, Y e Z acima, vimos que a média de todos eles era 70. Notamos, também, que os conjuntos X e Y eram mais homogêneos que o conjunto Z. Agora vamos calcular essas medidas matematicamente, utilizando as fórmulas acima: Os nossos conjuntos X, Y e Z são de dados não agrupados. Vamos representá-los em Tabelas, para melhor visualização. Tabela X
xi
xi x
( xi x ) 2
70 70 70 70 70
70 – 70 = 0 70 – 70 = 0 70 – 70 = 0 70 – 70 = 0 70 – 70 = 0
02 = 0 02 = 0 02 = 0 02 = 0 02 = 0
(x
i
Tabela Y
x) 2 0
Tabela Z
xi
xi x
( xi x ) 2
68 69 70 71 72
-2 -1 0 1 2
4 1 0 1 4
(x
i
( xi x ) 2
x i xi x 5 15 50 120 160
-65 -55 -20 50 90
4225 3025 400 2500 8100
(x
x) 2 10
i
x) 2 18250
Sabemos que n é igual a 5, para todos os conjuntos. Agora ficou fácil calcular a variância e o desvio padrão dos três conjuntos. Vejamos: Solução: Aplicando as fórmulas para os valores da população, temos: Para o conjunto X: n
Variância : (2x )
( xi x ) 2 i 1
n
n
0 PADRÃO 0 DESVIO ( x ) 5
(x i 1
i
x )2
n
0 0
47
Interpretação do Desvio Padrão ( x ) : X O desvio padrão do conjunto X é igual a 0. De fato, isso significa que não há variação alguma no conjunto X, portanto, é um conjunto homogêneo.
Para o conjunto Y: n
( xi x ) 2
Variância : (2x )
i 1
n
n
10 PADRÃO 2 DESVIO ( x ) 5
(x
i
i 1
x )2 2 1,41
n
Interpretação do Desvio Padrão ( x ) : Y Vemos que há uma pequena variação em Y (1,41). Isso significa que os valores do conjunto Y estão próximos da média. Para o conjunto Z: n
Var. : (2x )
(x
i
i 1
n
x )2
n
18250 PADRÃO 3650 DESVIO ( x ) 5
(x
i
i 1
x )2
n
3650 60,41
Interpretação do Desvio Padrão ( x ) : Z Vemos que há uma alta variação em Z (6,41). Isso significa que os valores do conjunto Z estão muito distantes da média. Graficamente, é ainda mais fácil identificar um conjunto mais homogêneo. Observe:
Valores X 80 70 60 50 40
30 20 10 0 0
1
2
3
4
5
6
48
Valores Y 72,5 72 71,5 71 70,5 70 69,5 69 68,5 68 67,5 0
1
2
3
4
5
6
4
5
6
Valores Z 180 160 140 120 100 80 60 40 20 0 0
1
2
3
Note que se o conjunto for homogêneo (X), o gráfico é uma linha reta paralela ao eixo x; observe também que, quanto menos homogêneo for o conjunto, a reta tenderá a ser uma curva.
Cálculo da Variância e do Desvio padrão para dados agrupados sem intervalo de classe Se a sequência representa uma população, a variância e o desvio padrão serão calculados através das seguintes fórmulas:
49 n
Variância : (2x )
( xi x ) 2 f i i 1
n
f
n
DESVIO PADRÃO ( x )
i
i 1
(x
i
x )2 fi
i 1
n
f
i
i 1
Etapas do cálculo da Variância: 1ª. Calcular a média aritmética x ; x
x f f i
i
i
2ª. Subtrair a média x de cada valor x i do conjunto xi x , o que chamamos de desvio; 3ª. Elevar cada desvio ao quadrado e multiplicar pelas respectivas frequências ( xi x ) 2 . f i ;
4ª. Somar os quadrados dos desvios multiplicados pelas respectivas frequências 2
n
x i 1
i
x . fi ;
5ª. Dividir, a soma dos quadrados dos desvios multiplicados pelas respectivas frequências, pela soma das frequências. Vamos encontrar a variância e o desvio padrão da tabela abaixo.
xi
fi
0 1 2 3 4
2 6 12 7 3
f
i
30
Para isso, iniciaremos com o cálculo da média aritmética ( x ) para dados agrupados sem intervalo de classe.
x
x f f i
i
i
0.2 1.6 2.12 3.7 4.3 63 2,1 30 30
O próximo passo é acrescentar à tabela quatro colunas que serão úteis.
50
xi
fi
x
xi x
( xi x ) 2
( xi x ) 2 . f i
0 1 2 3 4
2 6 12 7 3
2,1 2,1 2,1 2,1 2,1
- 2,1 - 1,1 - 0,1 0,9 1,9
4,41 1,21 0,01 0,81 3,61
8,82 7,26 0,12 5,67 10,83
f
i
(x x) . f
30
2
i
i
32,7
Agora ficou fácil calcular a variância e o desvio padrão do conjunto. Vejamos:
n
Variância : (2x )
(x
i
x )2 fi
i 1
n
f
32,7 DESVIO PADRÃO 1,09 ( x ) 1,09 1,044 30
i
i 1
Portanto, a variância é de 1,09 e o desvio padrão é de 1,044. Interpretação do Desvio Padrão ( x ) Vemos que há uma pequena variação, (1,044), nos valores da tabela. Isso significa que os valores do conjunto estão próximos da média. Graficamente, temos:
Tabela - Frequência x variável 4,5 4
3,5 3 2,5 2 1,5 1 0,5 0 0
2
4
6
8
10
12
14
51
Cálculo da Variância e do Desvio padrão para dados agrupados com intervalo de classe Para encontrar a variância e o desvio padrão de um conjunto com intervalos de classe, utilizaremos a mesma fórmula para dados agrupados sem intervalos de classe. A única diferença será no cálculo dos valores das variáveis (
xi ).
n
Variância : (2x )
( xi x ) 2 f i i 1
n
f
n
DESVIO PADRÃO ( x )
(x
i
x )2 fi
i 1
i
i 1
n
f
i
i 1
Onde, as variáveis ( xi ) serão obtidas através da média aritmética das classes de frequências; isto é:
xi
Li li , sendo: Li = Limite superior da classe e li = limite inferior da classe. 2
Suponha, agora, que queiramos encontrar a variância e o desvio padrão da tabela abaixo: Estaturas
fi
150 ⌐ 154 154 ⌐ 158 158 ⌐ 162 162 ⌐ 166 166 ⌐ 170 170 ⌐ 174
4 9 11 8 5 3
f
i
40
Como a tabela apresenta os dados agrupados com intervalos de classe e a fórmula, acima, é para dados agrupados sem intervalo de classe, contornamos esta situação calculando os valores das variáveis ( xi ) através da fórmula do ponto médio de classe, isto é:
x1
L1 l1 150 154 304 152; 2 2 2
x2
154 158 312 156 2 2
52
x3
158 162 320 160 ; 2 2
x4
162 166 328 164 2 2
x5
166 170 336 168; 2 2
x5
170 174 344 172 2 2
O próximo passo é calcular a média aritmética ( x ) dos valores das variáveis ( xi ), encontrados anteriormente. Vejamos:
x
x f f i
i
i
152 156 160 164 168 172 972 162 6 6
Agora, vamos acrescentar à tabela quatro colunas que serão úteis.
xi
fi
x
xi x
( xi x ) 2
( xi x ) 2 . f i
152 156 160 164 168 172
4 9 11 8 5 3
162 162 162 162 162 162
- 10 -6 -2 2 6 10
100 36 4 4 36 100
400 324 44 32 180 300
f
i
(x x) . f
40
2
i
i
1280
Substituindo os dados da tabela nas fórmulas, acima, calculamos a variância e o desvio padrão do conjunto. Vejamos: n
Variância : (2x )
(x
i
x )2 fi
i 1
n
f
1280 PADRÃO 32 DESVIO ( x ) 32 5,656 40
i
i 1
Portanto, a variância é de 32 e o desvio padrão é de 5,656. Interpretação do Desvio Padrão ( x ) Vemos que há uma pequena variação, (5,656), nos valores da tabela. Isso significa que os valores do conjunto estão próximos da média.
53
Graficamente, temos:
(2) Medidas de variação relativa Até aqui, nossos esforços têm se voltado para caracterizar, com o maior rigor possível, a dispersão dos conjuntos. O coeficiente de variação é uma medida muito útil para essa intenção. Tomando, como exemplo, uma série X que apresenta x = 10 e ( x ) = 2 e uma série Y que apresenta y = 100 e ( x ) = 5 do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X. No entanto, se levarmos em consideração as medidas das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é 2 em relação a 10. Isto nos leva a definir as medidas de dispersão relativas: coeficiente de variação, o qual será apresentado através da fórmula:
CV ( x)
( x) x
Pode ser expresso em percentual, isto é:
CV ( x)
( x) x
x100
54
Em outras palavras, o coeficiente de variação é a razão entre o desvio padrão e a média aritmética da série dos dados e é usado para comparar a variabilidade de diferentes grupos de dados. Suponha que queiramos estudar a variação das idades dos dois grupos abaixo relacionados: G1: 7 7 7 7 7 7 G2: 8 9 10 11 19 22 Para isso, vamos calcular a média e o desvio padrão de G1 e G2. Os cálculos das médias são obtidos através da fórmula para dados não-agrupados. Vejamos:
G1 : x
x
G2 : x
x
i
n i
n
7 7 7 7 7 7 42 7 anos 6 6
8 9 10 11 19 22 79 13,16 aproximadamente, 13 anos. 6 6
Os nossos conjuntos G1 e G2 são de dados não-agrupados. Vamos representá-los em Tabelas, para melhor visualização. Tabela G1
Tabela G2
xi
xi x
( xi x ) 2
xi
xi x
( xi x ) 2
7 7 7 7 7 7
0 0 0 0 0 0
0 0 0 0 0 0
8 9 10 11 19 22
-5 -4 -3 -2 6 9
25 16 9 4 36 81
(x
i
x) 2 0
(x
i
x) 2 171
Sabemos que n é igual a 6, para todos os conjuntos. Agora basta calcular o desvio padrão para os dois conjuntos. Vejamos: Aplicando a fórmula para os valores da população, obtemos os desvios de G1 e G2:
55 n
(x
G1: ( x )
i
i 1
x )2
n
0 0 0 6
Interpretação do Desvio Padrão ( x ) : G1 A média de idade de G1 é de 7 anos e o desvio padrão é zero. Isso significa que, no conjunto, os valores das idades são homogêneos ou sem variação. n
e G2: ( x )
(x i 1
i
x )2
n
171 28,5 5,33 6
Interpretação do Desvio Padrão ( x ) : G2 A média das idades de G2 é de, aproximadamente, 13 anos e o desvio padrão de, aproximadamente, 5 anos. Essa variação no conjunto G2, pode ser medida. Para isso, vamos utilizar a fórmula do coeficiente de variação.
CV ( x)
( x) x
x100
5 x100 0,3846x100 38,46% 13
Interpretação do Coeficiente de Variação (CV) de G1 e G2: Isso significa que G2 é um grupo cujas idades variam mais do que as idades de G1. E ainda, essa variação foi de, aproximadamente, 38%.
Atividades 26 a 40 – Medidas de dispersão 1. Calcule a variância, desvio padrão e o coeficiente de variação das séries abaixo: a) 2, 3, 5, 4, 5, 2, 5, 7 b) 4, 12, 5, 9, 12, 4, 3 c) 7, 7, 7, 7, 7 d) 4, 5, 6, 6, 6, 7, 8, 8, 8, 9, 10, 10, 10, 11 e) 2, 5, 9, 6, 10, 12
56
2. Calcule a variância, desvio padrão e o coeficiente de variação das idades dos alunos de uma classe:
3. Calcule a variância, desvio padrão e o coeficiente de variação da tabela abaixo. Acidentes
fi
0 1 2 3 4
30 5 3 1 1 Σfi = 50
4. O salário de 40 funcionários de um escritório está distribuído segundo o quadro abaixo. Calcule a variância, desvio padrão e o coeficiente de variação. i
Salários (R$)
fi
1 2 3 4 5 6
400 ⌐ 500 500 ⌐ 600 600 ⌐ 700 700 ⌐ 800 800 ⌐ 900 900 ⌐ 1000
12 15 8 3 1 1 Σfi = 40
5. Uma imobiliária gerencia o aluguel de residências particulares, seguindo o quadro ao lado. Calcule a variância, desvio padrão e o coeficiente de variação para estas residências.
57
i
Aluguel (R$)
fi
1 2 3 4 5
0 ⌐ 200 200 ⌐ 400 400 ⌐ 600 600 ⌐ 800 800 ⌐ 1000
30 52 28 7 3 Σfi = 120
ATIVIDADE DE PESQUISA E ANÁLISE EM GRUPO O índice de massa corporal (IMC) é uma medida internacional usada para calcular se uma pessoa está no peso ideal. Desenvolvido pelo polímata Lambert Quételet no fim do século XIX, trata-se de um método fácil e rápido para a avaliação do nível de gordura de cada pessoa, sendo, por isso, um preditor internacional de obesidade adotado pela Organização Mundial da Saúde (OMS). O IMC é determinado pela divisão da massa do indivíduo pelo quadrado de sua altura, em que a massa está em quilogramas e a altura em metros. Se tomarmos como exemplo uma pessoa com 90 quilogramas de massa e 1,75 metros de altura, teremos:
IMC
90kg 90 29,38kg / m 2 1,75m.1,75m 3,0625
O resultado é comparado com a tabela, abaixo, que indica o grau de obesidade do indivíduo: IMC
Classificação do IMC
< 16
Magreza grave
16 a < 17
Magreza moderada
17 a < 18,5
Magreza leve
18,5 a < 25
Saudável
25 a < 30
Sobrepeso
58
30 a < 35
Obesidade Grau I
35 a < 40
Obesidade Grau II (severa)
> 40
Obesidade Grau III (mórbida)
Portanto, a pessoa do exemplo acima está com sobrepeso, pois sua massa está entre 25 e 30 kg. Com base no texto, acima, e de posse de uma trena, uma balança e um celular com um dos aplicativos utilizados no curso, faça uma coleta de dados das estaturas e massas de 30 alunos do IMCF e determine: a) Uma tabela de frequências com intervalos de classe; b) A média aritmética; c) A moda; d) A mediana; e) A variância; f) O desvio Padrão; g) O coeficiente de variação; h) Um histograma de frequência; i) Uma análise referente ao IMC dos alunos do IMCF.
59
Referências: APOSTILA de Estatística, Disponível em: <https://pt.scribd.com/document/211774786> Acesso em: 02 jul. 2018. CASTANHEIRA, Nelson Pereira. Estatística aplicada a todos os níveis. 5ª ed. rev. e atual. Curitiba: Ibpex, 2010. CASTRO, Lauro Sodré Viveiros de. Exercícios de Estatística. 9.ed. Rio de Janeiro: Editora Científica, 1964. CLEMENTE, Rosana Giovanni Pires. Apostila de Estatística, Taubaté. Universidade de Taubaté, 2003. COSTA, Sérgio Francisco. Estatística aplicada à pesquisa em educação. Brasília: Plano Editora, 2004. CRESPO, Antônio Arnot. Estatística fácil. 13ª. ed. São Paulo: Saraiva, 1995. CRESPO, Antônio Arnot. Estatística Fácil. 18ª Edição. São Paulo, 2002. DANTE, Luiz Roberto. Tudo é matemática. 6a série. São Paulo: Ática, 2003. HERÓDOTO. Disponível em: <http://greciantiga.org>. Acesso em: 30 ago. 06. ISSN 916795709. HISTÓRIA da Estatística. Disponível em: <http://www.estatisticapr.hpg.ig.com.br/historia.html>. Acesso em: 03 ago. 2006. MEDEIROS, Carlos Augusto. Estatística aplicada à educação. Brasília: Universidade de Brasília, 2007. TRIOLA, Mário F., Introdução à ESTATÍSTICA - 7ª Edição. Rio de Janeiro: LTC – Livros Técnicos e Científicos Editora S.A.