Aula 2
Estatística Descritiva (Medidas Sumárias)
Prof. Cosme Marcelo Furtado Passos da Silva
1
Medidas de Tendência Central Caracterizam o conjunto de dados por valores que representem todos os outros valores da amostra. É uma forma de resumir o conjunto de dados em um único valor. • Média • Mediana • Moda
2
1
Média (Média Aritmética) • Leva em conta todos os n elementos da amostra. • Somam-se todos os n valores da amostra e divide-se pela quantidade total de valores n da amostra. •OBS:O valor da média não necessariamente pertence ao conjunto original de valores. 3
Média (Média Aritmética) Exemplo:
Seja x uma variável utilizada para representar os valores observados do Volume Expiratório Forçado FEV1 (volume de ar que pode ser expelido do pulmão depois de um segundo de esforço constante). 4
2
Média Aritmética x1 =
2,30
x2 =
2,15
x3 =
3,50
x4 =
2,60
x5 =
2,75
x6 =
2,82
x7 =
4,05
x8 =
2,25
x9 =
2,68
x10 =
3,00
x11 =
4,02
x12 =
2,85
x13 =
3,38
x =
x1 + x2 + x3 + K + x13 13
=
38,35 13
= 2, 95 litros.
5
Média Aritmética
Sejam n valores de x (x1, x2, ..., xn), a média aritmética é expressa por: n
∑ x =
x
i=1
n
i
=
x1 + x
2
+ ... + x n
n
6
3
Média Aritmética Tabela de Freqüência X
fi
x1
f1
x2
f2
X
fi
Xfi
x1
f1
x1f1
x2
f2
x2f2
xk
fk
xkfk
Total
n
.
.
. xk
fk
Total
n
.
k
xi fi ∑ i
x =
=1
k
k
=
xi fi ∑ i =1
n
fi ∑ i
7
=1
Média Aritmética Tabela de Freqüência
k
x =
xi fi ∑ i =1
k
fi ∑ i
k
=
xi fi ∑ i =1
n
=1
8
4
Média Aritmética Tabela de Freqüência Exemplo No. de filhos X
fi
0
4
1
5
2
7
3
3
5
1
Total
20 9
Média Aritmética Tabela de Freqüência Exemplo k
No. de filhos X
fi
Xfi
0
4
0
1
5
5
2
7
14
3
3
9
5
1
5
20
33
Total
x =
xi fi ∑ i =1
k
fi ∑ i
k
=
xi fi ∑ i =1
n
=1
x =
33 = 1,65 20
10
5
Média para Dados Agrupados Em algumas situações temos apenas os dados agrupados em uma distribuição de freqüência. Ex: Distribuição de níveis séricos de colesterol para homens dos EUA, com idade entre 24 e 34 anos, 19761980. A média é obtida assumindo que os valores em cada intervalo são iguais ao seu ponto médio -> aproximação...
Nível de Colesterol (mg/100ml) 80-119 120-159 160-199 200-239 240-279 280-319 320-359 360-399 Total
fN i
13 150 442 229 115 34 9 5 1067 11
Média para Dados Agrupados Para encontrarmos a média dos dados agrupados, multiplicamos o ponto médio (mi) de cada intervalo pela freqüência correspondente. Somamos esses valores e dividimos pelo total do número de k observações
∑ mi f i
x=
i =1 k
∑f i =1
i
Nível de colesterol
fi
Ponto médio (mi)
80-119
13
99,5
120-159
150
139,5
160-199
442
179,5
200-239
299
219,5
240-279
115
259,5
280-319
34
299,5
320-359
9
339,5
360-399
5
379,5
TOTAL
1067 12
6
Média para Dados Agrupados Nível de colesterol
fi
Ponto médio
80-119
13
99,5
120-159
150
139,5
160-199
442
179,5
200-239
299
219,5
240-279
115
259,5
280-319
34
299,5
320-359
9
339,5
360-399
5
379,5
TOTAL
1067
k
∑m f i
x=
i
i =1 k
∑f
i
i =1
1 x= [(99,5x13) + (139,5x15) + (179,5x442) + (219,5x115) + ...] 1067 13
Média - Robustez A média aritmética não é uma medida robusta, pois é influenciada por valores extremos. Tomando o primeiro exemplo, imagine que o valor 4,02 tenha sido digitado como 40,2:
2.3, 2.15, 3.50, 2.60, 2.75, 2.82, 4.05, 2.25, 2.68, 3.00, 40.2, 2.85 14
7
Média - Robustez
Média anterior=2,95 litros (x1 ) Média atual=5,73 litros
( x2 )
x2 ≈ 2x1 15
Mediana A mediana é o valor da distribuição que divide a distribuição ao meio. 50% das observações ficam acima da mediana e 50% ficam abaixo. A mediana é uma medida mais robusta, pois é menos sensível a valores atípicos.
16
8
Mediana Para se calcular a mediana é preciso ordenar os valores: A posição da mediana é dada pelo elemento de ordem: (n+1)/2 se n for ímpar x1 x2 x3 (3+1)/2= 2, ou seja, elemento de ordem 2: x2 Se n for par, o valor da mediana é dado pela média dos elementos de ordem n/2 e (n+2)/2: x1 x2 x3 x4 x + x
md =
2
3
2
17
Mediana
Como ilustração, considere os valores ordenados de dois conjuntos de dados: (1) 1 2 5 6 7 No primeiro conjunto n é ímpar. Logo, a mediana é dada pelo valor que ocupa a terceira posição (5+1)/2, que é igual a 5. 18
9
Mediana
No segundo conjunto o valor mediano é dado pela média aritmética dos valores que ocupam a posição (n/2) e (n+2)/2, ou seja, posição 3 e 4 (2) 1, 2, 5, 6, 7, 7 Logo, a mediana (md) é:
md =
5+6 = 5,5 2 19
Mediana - Robustez (1)
2.15, 2.25, 2.30, 2.60, 2.68, 2.82, 2.85, 3.00, 3.38, 4.02, 4.05
2.75,
(2)
2.15, 2.25, 2.30, 2.60, 2.68, 2.82, 2.85, 3.00, 3.38, 4.05, 40.2 md1 = md 2 =
2,75 + 2,82 5,57 = = 2,785 2 2
2.75,
Não se alterou com o valor atípico 20
10
Moda • Valores
que
mais
aparecem
na
amostra
(mais
freqßentes). • A moda sempre pertence ao conjunto original de valores. Unimodal moda = 5 21
Moda
Bimodal modas = 2 e 6
Amodal
22
11
Moda Valores que ocorrem mais freqĂźentemente.
23
Qual medida escolher??? Mediana versus MĂŠdia
24
12
Qual medida escolher??? Mediana versus Média
Média • Medida mais usada na prática. • Facilidade de tratamento estatístico (propriedades interessantes). • Muito influenciada por valores extremos (outliers).
Mediana • Não é tão influenciada por valores extremos, • Desvantagem: utiliza no máximo dois valores da amostra. 25
Qual medida escolher??? Mediana versus Média
26
13
Qual medida escolher??? Moda versus Média e Mediana Moda é interessante quando as variáveis tratadas têm distribuição de freqüências bimodais ou multimodais.
27
Forma da Distribuição de Freqüências e Medidas de Tendência Central
28
14
à direita
à esquerda
29
Medidas de Variabilidade Além da informação do valor representativo do conjunto de valores da amostra (medidas de tendência central), é importante expressar a variabilidade desses valores em relação a uma determinada referência. • Amplitude Total • Variância • Desvio-padrão • Coeficiente de Variação 30
15
Medidas de Variabilidade
31
Amplitude Total
Diferença entre o valor mĂĄximo e o valor mĂnimo de um conjunto de dados.
Exemplo:
32
16
Amplitude Total Medida grosseira!!!
33
Medidas de Dispersão Variância e Desvio-padrão
A variância mede a variabilidade ao redor da média. n
Var (x ) = σ x = ∑ 2
i =1
2 ( xi − x ) .
n
34
17
Variância e Desvio-padrão
Quando estamos trabalhando variância é dada por: n
Var (x ) = sx = ∑ 2
i =1
com
amostra,
a
2 ( xi − x ) .
n −1
O desvio-padrão é dado pela raiz quadrada da variância.
35
Desvio-padrão
O desvio-padrão possui a mesma unidade de medida que os dados originais. 36
18
Cálculo da Variância Indivíduo
xi
xi − x
( xi − x )
1
2,30
-0,65
0,4225
2
2,15
-0,80
0,6400
3
3,50
0,55
0,3025
4
2,60
-0,35
0,1225
5
2,75
-0,20
0,0400
6
2,82
-0,13
0,0169
7
4,05
1,10
1,2100
8
2,25
-0,70
0,4900
9
2,68
-0,27
0,0729
10
3,00
0,05
0,0025 1,1449
11
4,02
1,07
12
2,85
-0,10
0,0100
13
3,38
0,43
0,1849
Total
38,35
0
4,6596
2
37
Variância e Desvio-padrão
13 1 s = ( xi − 2,95) ∑ 13 − 1 ( ) i =1
2
2
=
4, 6596 = 0,39 litros 2 . 12
s = 0,39 litros 2 = 0, 62 litros. 38
19
Variância e Desvio-padrão Dados agrupados Novamente assumimos que todas as observações de um intervalo são iguais ao ponto médio do intervalo (mi) k
∑ (m 2
s =
2
i
− x) × f i
i =1 k
∑f i =1
i
−1
Nível de colesterol
fi
Ponto médio (mi)
80-119
13
99,5
120-159
150
139,5
160-199
442
179,5
200-239
299
219,5
240-279
115
259,5
280-319
34
299,5
320-359
9
339,5
360-399
5
379,5
TOTAL
1067 39
Variância e Desvio-padrão
40
20
Quando o s é grande ou pequeno? Um desvio-padrão de 10 unidades é grande ou pequeno???? 1) Se a média é 10.000 → desvio é pequeno. 2) Se a média é 100 → desvio é grande.
→ Magnitude em relação à média. 1) Desvio corresponde a 0,1% da média: 10 / 10.000. 2) Desvio corresponde a 10% da média: 10 / 100.
41
Coeficiente de Variação Índice relativo de dispersão: expressa a variabilidade sem a influência da ordem de grandeza da variável.
CV =
Desvio − padrão Média
• Quanto menor é o coeficiente de variação de um conjunto de dados, menor é a sua variabilidade. Medida Adimensional.
42
21
Coeficiente de Variação
43
Regra do Desvio-padrão (Distribuições Simétricas)
44
22
Outras Medidas de Posição
Posição de um indivíduo no conjunto de dados: mostrada pelo percentil, contando-se (em percentagem) quantos indivíduos no conjunto têm valores menores que deste indivíduo.
• Percentis • Escores Padronizados 45
Percentis O percentil de ordem k (onde k é qualquer valor entre 0 e 100), denotado por Pk, é o valor tal que k% dos valores do conjunto de dados são menores ou iguais a ele.
• Percentis: 10, 20, 30, ..., 90 → Decis • Percentil 25 → Primeiro quartil (Q1) • Percentil 50 → Segundo quartil (Q2) → Mediana • Percentil 75 → Terceiro quartil (Q3)
46
23
Percentis
47
Percentis Conjuntos de peso ao nascer de 20 recém-nascidos 2069, 2581, 2759, 2834, 2838 2841, 3031, 3101, 3200, 3245 3248, 3260, 3265, 3314, 3323 3484, 3541, 3609, 3649, 4146 P10=? 10% abaixo e 90% acima L=(10/100)x(20)=2; Como L é inteiro, tiramos a média entre o elemento L = 2 e L+1 =3 P10=(2581+2759)/2=2670 g
Interpretação... 48
24
Percentis
P90=?
L=[(90/100)x20]=18; L é inteiro, logo tiramos média entre L=18 e L+1=19;
18o da esquerda para direita – 3609 19o da direita para esquerda - 3649
P90=[(3609+3649)/2]=3629 g
Interpretação... 49
Percentis
50
25
Escores Padronizados Medidas que, calculadas para cada observação do conjunto de dados, nos permitem fazer comparações entre valores de variáveis medidas em escalas diferentes.
51
Escores Padronizados
Em um teste, qual foi o aluno de melhor desempenho? E o de pior?52
26
Escores Padronizados Para um dado aluno, em qual teste ele se saiu melhor em relação à turma?
53
Escores Padronizados
54
27
Escores Padronizados
55
Escores Padronizados
56
28
Escores Padronizados
57
Escores Padronizados
1ยบ Flรกvia e 20ยบ Luiza
58
29
Variáveis Contínuas - Boxplot • Gráfico que detecta valores discrepantes (outliers).
• Utiliza os quartis: Q1, Q2 e Q3.
• Valores mínimo e máximo do conjunto de dados.
• DIQ = Q3 – Q1 59
Variáveis Contínuas - Boxplot
Limite sup erior = Q3 + 1,5 × DIQ
Limite inf erior = Q1 − 1,5 × DIQ 60
30
Variáveis Contínuas - Boxplot
61
Variáveis Contínuas - Boxplot
62
31
Variáveis Contínuas - Boxplot
Contagem linfócitos
TCD4
de em
pacientes em remissão de doença de Hodgkin e em remissão de malignidades disseminadas não Hodgkin.
63
Bibliografia 1) Soares, J F; Siqueira, A L. Introdução à Estatística Médica. Coopmed Editora Médica, 2a edição, 2002, Belo Horizonte, MG. 2) Magalhães, M. N.; Lima, A. C. P (2005). Noções de Probabilidade e Estatística. 6ª ed. Edusp. São Paulo. 3) Silva, Nilsa Nunes (2004). Amostragem Probabilística: Um curso introdutório. Edusp. Brasil. 4) Mood, A. M. et al. 1974. Introduction to the Theory of Statistics. 3. ed. Tokyo, McGraw-Hill Kogakusha. 5) Triola, M.F. Introdução à Estatística. Rio de Janeiro: LTC Editora, 1999 6) Pagano, M., e Gauvreau, K. Princípios de Bioestatística, Segunda Edição São Paulo: Thomson, 2004 7) Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer. 8) Venables WN, Smith DM, et al. (2002). An introduction to R: notes on R: a programming environment for data. Bristol, Network Theory 9) Dalgaard, P. (2002) Introductory Statistics with R. Springer. 64
32