Estatística Descritiva (Medidas Sumárias)

Page 1

Aula 2

Estatística Descritiva (Medidas Sumárias)

Prof. Cosme Marcelo Furtado Passos da Silva

1

Medidas de Tendência Central Caracterizam o conjunto de dados por valores que representem todos os outros valores da amostra. É uma forma de resumir o conjunto de dados em um único valor. • Média • Mediana • Moda

2

1


Média (Média Aritmética) • Leva em conta todos os n elementos da amostra. • Somam-se todos os n valores da amostra e divide-se pela quantidade total de valores n da amostra. •OBS:O valor da média não necessariamente pertence ao conjunto original de valores. 3

Média (Média Aritmética) Exemplo:

Seja x uma variável utilizada para representar os valores observados do Volume Expiratório Forçado FEV1 (volume de ar que pode ser expelido do pulmão depois de um segundo de esforço constante). 4

2


Média Aritmética x1 =

2,30

x2 =

2,15

x3 =

3,50

x4 =

2,60

x5 =

2,75

x6 =

2,82

x7 =

4,05

x8 =

2,25

x9 =

2,68

x10 =

3,00

x11 =

4,02

x12 =

2,85

x13 =

3,38

x =

x1 + x2 + x3 + K + x13 13

=

38,35 13

= 2, 95 litros.

5

Média Aritmética

Sejam n valores de x (x1, x2, ..., xn), a média aritmética é expressa por: n

∑ x =

x

i=1

n

i

=

x1 + x

2

+ ... + x n

n

6

3


Média Aritmética Tabela de Freqüência X

fi

x1

f1

x2

f2

X

fi

Xfi

x1

f1

x1f1

x2

f2

x2f2

xk

fk

xkfk

Total

n

.

.

. xk

fk

Total

n

.

k

xi fi ∑ i

x =

=1

k

k

=

xi fi ∑ i =1

n

fi ∑ i

7

=1

Média Aritmética Tabela de Freqüência

k

x =

xi fi ∑ i =1

k

fi ∑ i

k

=

xi fi ∑ i =1

n

=1

8

4


Média Aritmética Tabela de Freqüência Exemplo No. de filhos X

fi

0

4

1

5

2

7

3

3

5

1

Total

20 9

Média Aritmética Tabela de Freqüência Exemplo k

No. de filhos X

fi

Xfi

0

4

0

1

5

5

2

7

14

3

3

9

5

1

5

20

33

Total

x =

xi fi ∑ i =1

k

fi ∑ i

k

=

xi fi ∑ i =1

n

=1

x =

33 = 1,65 20

10

5


Média para Dados Agrupados Em algumas situações temos apenas os dados agrupados em uma distribuição de freqüência. Ex: Distribuição de níveis séricos de colesterol para homens dos EUA, com idade entre 24 e 34 anos, 19761980. A média é obtida assumindo que os valores em cada intervalo são iguais ao seu ponto médio -> aproximação...

Nível de Colesterol (mg/100ml) 80-119 120-159 160-199 200-239 240-279 280-319 320-359 360-399 Total

fN i

13 150 442 229 115 34 9 5 1067 11

Média para Dados Agrupados Para encontrarmos a média dos dados agrupados, multiplicamos o ponto médio (mi) de cada intervalo pela freqüência correspondente. Somamos esses valores e dividimos pelo total do número de k observações

∑ mi f i

x=

i =1 k

∑f i =1

i

Nível de colesterol

fi

Ponto médio (mi)

80-119

13

99,5

120-159

150

139,5

160-199

442

179,5

200-239

299

219,5

240-279

115

259,5

280-319

34

299,5

320-359

9

339,5

360-399

5

379,5

TOTAL

1067 12

6


Média para Dados Agrupados Nível de colesterol

fi

Ponto médio

80-119

13

99,5

120-159

150

139,5

160-199

442

179,5

200-239

299

219,5

240-279

115

259,5

280-319

34

299,5

320-359

9

339,5

360-399

5

379,5

TOTAL

1067

k

∑m f i

x=

i

i =1 k

∑f

i

i =1

 1  x= [(99,5x13) + (139,5x15) + (179,5x442) + (219,5x115) + ...]  1067  13

Média - Robustez A média aritmética não é uma medida robusta, pois é influenciada por valores extremos. Tomando o primeiro exemplo, imagine que o valor 4,02 tenha sido digitado como 40,2:

2.3, 2.15, 3.50, 2.60, 2.75, 2.82, 4.05, 2.25, 2.68, 3.00, 40.2, 2.85 14

7


Média - Robustez

Média anterior=2,95 litros (x1 ) Média atual=5,73 litros

( x2 )

x2 ≈ 2x1 15

Mediana A mediana é o valor da distribuição que divide a distribuição ao meio. 50% das observações ficam acima da mediana e 50% ficam abaixo. A mediana é uma medida mais robusta, pois é menos sensível a valores atípicos.

16

8


Mediana Para se calcular a mediana é preciso ordenar os valores: A posição da mediana é dada pelo elemento de ordem: (n+1)/2 se n for ímpar x1 x2 x3 (3+1)/2= 2, ou seja, elemento de ordem 2: x2 Se n for par, o valor da mediana é dado pela média dos elementos de ordem n/2 e (n+2)/2: x1 x2 x3 x4 x + x

md =

2

3

2

17

Mediana

Como ilustração, considere os valores ordenados de dois conjuntos de dados: (1) 1 2 5 6 7 No primeiro conjunto n é ímpar. Logo, a mediana é dada pelo valor que ocupa a terceira posição (5+1)/2, que é igual a 5. 18

9


Mediana

No segundo conjunto o valor mediano é dado pela média aritmética dos valores que ocupam a posição (n/2) e (n+2)/2, ou seja, posição 3 e 4 (2) 1, 2, 5, 6, 7, 7 Logo, a mediana (md) é:

md =

5+6 = 5,5 2 19

Mediana - Robustez (1)

2.15, 2.25, 2.30, 2.60, 2.68, 2.82, 2.85, 3.00, 3.38, 4.02, 4.05

2.75,

(2)

2.15, 2.25, 2.30, 2.60, 2.68, 2.82, 2.85, 3.00, 3.38, 4.05, 40.2 md1 = md 2 =

2,75 + 2,82 5,57 = = 2,785 2 2

2.75,

Não se alterou com o valor atípico 20

10


Moda • Valores

que

mais

aparecem

na

amostra

(mais

freqßentes). • A moda sempre pertence ao conjunto original de valores. Unimodal moda = 5 21

Moda

Bimodal modas = 2 e 6

Amodal

22

11


Moda Valores que ocorrem mais freqĂźentemente.

23

Qual medida escolher??? Mediana versus MĂŠdia

24

12


Qual medida escolher??? Mediana versus Média

Média • Medida mais usada na prática. • Facilidade de tratamento estatístico (propriedades interessantes). • Muito influenciada por valores extremos (outliers).

Mediana • Não é tão influenciada por valores extremos, • Desvantagem: utiliza no máximo dois valores da amostra. 25

Qual medida escolher??? Mediana versus Média

26

13


Qual medida escolher??? Moda versus Média e Mediana Moda é interessante quando as variáveis tratadas têm distribuição de freqüências bimodais ou multimodais.

27

Forma da Distribuição de Freqüências e Medidas de Tendência Central

28

14


à direita

à esquerda

29

Medidas de Variabilidade Além da informação do valor representativo do conjunto de valores da amostra (medidas de tendência central), é importante expressar a variabilidade desses valores em relação a uma determinada referência. • Amplitude Total • Variância • Desvio-padrão • Coeficiente de Variação 30

15


Medidas de Variabilidade

31

Amplitude Total

Diferença entre o valor måximo e o valor mínimo de um conjunto de dados.

Exemplo:

32

16


Amplitude Total Medida grosseira!!!

33

Medidas de Dispersão Variância e Desvio-padrão

A variância mede a variabilidade ao redor da média. n

Var (x ) = σ x = ∑ 2

i =1

2 ( xi − x ) .

n

34

17


Variância e Desvio-padrão

Quando estamos trabalhando variância é dada por: n

Var (x ) = sx = ∑ 2

i =1

com

amostra,

a

2 ( xi − x ) .

n −1

O desvio-padrão é dado pela raiz quadrada da variância.

35

Desvio-padrão

O desvio-padrão possui a mesma unidade de medida que os dados originais. 36

18


Cálculo da Variância Indivíduo

xi

xi − x

( xi − x )

1

2,30

-0,65

0,4225

2

2,15

-0,80

0,6400

3

3,50

0,55

0,3025

4

2,60

-0,35

0,1225

5

2,75

-0,20

0,0400

6

2,82

-0,13

0,0169

7

4,05

1,10

1,2100

8

2,25

-0,70

0,4900

9

2,68

-0,27

0,0729

10

3,00

0,05

0,0025 1,1449

11

4,02

1,07

12

2,85

-0,10

0,0100

13

3,38

0,43

0,1849

Total

38,35

0

4,6596

2

37

Variância e Desvio-padrão

13 1 s = ( xi − 2,95) ∑ 13 − 1 ( ) i =1

2

2

=

4, 6596 = 0,39 litros 2 . 12

s = 0,39 litros 2 = 0, 62 litros. 38

19


Variância e Desvio-padrão Dados agrupados Novamente assumimos que todas as observações de um intervalo são iguais ao ponto médio do intervalo (mi) k

∑ (m 2

s =

2

i

− x) × f i

i =1 k

∑f i =1

i

−1

Nível de colesterol

fi

Ponto médio (mi)

80-119

13

99,5

120-159

150

139,5

160-199

442

179,5

200-239

299

219,5

240-279

115

259,5

280-319

34

299,5

320-359

9

339,5

360-399

5

379,5

TOTAL

1067 39

Variância e Desvio-padrão

40

20


Quando o s é grande ou pequeno? Um desvio-padrão de 10 unidades é grande ou pequeno???? 1) Se a média é 10.000 → desvio é pequeno. 2) Se a média é 100 → desvio é grande.

→ Magnitude em relação à média. 1) Desvio corresponde a 0,1% da média: 10 / 10.000. 2) Desvio corresponde a 10% da média: 10 / 100.

41

Coeficiente de Variação Índice relativo de dispersão: expressa a variabilidade sem a influência da ordem de grandeza da variável.

CV =

Desvio − padrão Média

• Quanto menor é o coeficiente de variação de um conjunto de dados, menor é a sua variabilidade. Medida Adimensional.

42

21


Coeficiente de Variação

43

Regra do Desvio-padrão (Distribuições Simétricas)

44

22


Outras Medidas de Posição

Posição de um indivíduo no conjunto de dados: mostrada pelo percentil, contando-se (em percentagem) quantos indivíduos no conjunto têm valores menores que deste indivíduo.

• Percentis • Escores Padronizados 45

Percentis O percentil de ordem k (onde k é qualquer valor entre 0 e 100), denotado por Pk, é o valor tal que k% dos valores do conjunto de dados são menores ou iguais a ele.

• Percentis: 10, 20, 30, ..., 90 → Decis • Percentil 25 → Primeiro quartil (Q1) • Percentil 50 → Segundo quartil (Q2) → Mediana • Percentil 75 → Terceiro quartil (Q3)

46

23


Percentis

47

Percentis Conjuntos de peso ao nascer de 20 recém-nascidos 2069, 2581, 2759, 2834, 2838 2841, 3031, 3101, 3200, 3245 3248, 3260, 3265, 3314, 3323 3484, 3541, 3609, 3649, 4146 P10=? 10% abaixo e 90% acima L=(10/100)x(20)=2; Como L é inteiro, tiramos a média entre o elemento L = 2 e L+1 =3 P10=(2581+2759)/2=2670 g

Interpretação... 48

24


Percentis

P90=?

L=[(90/100)x20]=18; L é inteiro, logo tiramos média entre L=18 e L+1=19;

18o da esquerda para direita – 3609 19o da direita para esquerda - 3649

P90=[(3609+3649)/2]=3629 g

Interpretação... 49

Percentis

50

25


Escores Padronizados Medidas que, calculadas para cada observação do conjunto de dados, nos permitem fazer comparações entre valores de variáveis medidas em escalas diferentes.

51

Escores Padronizados

Em um teste, qual foi o aluno de melhor desempenho? E o de pior?52

26


Escores Padronizados Para um dado aluno, em qual teste ele se saiu melhor em relação à turma?

53

Escores Padronizados

54

27


Escores Padronizados

55

Escores Padronizados

56

28


Escores Padronizados

57

Escores Padronizados

1ยบ Flรกvia e 20ยบ Luiza

58

29


Variáveis Contínuas - Boxplot • Gráfico que detecta valores discrepantes (outliers).

• Utiliza os quartis: Q1, Q2 e Q3.

• Valores mínimo e máximo do conjunto de dados.

• DIQ = Q3 – Q1 59

Variáveis Contínuas - Boxplot

Limite sup erior = Q3 + 1,5 × DIQ

Limite inf erior = Q1 − 1,5 × DIQ 60

30


Variáveis Contínuas - Boxplot

61

Variáveis Contínuas - Boxplot

62

31


Variáveis Contínuas - Boxplot

Contagem linfócitos

TCD4

de em

pacientes em remissão de doença de Hodgkin e em remissão de malignidades disseminadas não Hodgkin.

63

Bibliografia 1) Soares, J F; Siqueira, A L. Introdução à Estatística Médica. Coopmed Editora Médica, 2a edição, 2002, Belo Horizonte, MG. 2) Magalhães, M. N.; Lima, A. C. P (2005). Noções de Probabilidade e Estatística. 6ª ed. Edusp. São Paulo. 3) Silva, Nilsa Nunes (2004). Amostragem Probabilística: Um curso introdutório. Edusp. Brasil. 4) Mood, A. M. et al. 1974. Introduction to the Theory of Statistics. 3. ed. Tokyo, McGraw-Hill Kogakusha. 5) Triola, M.F. Introdução à Estatística. Rio de Janeiro: LTC Editora, 1999 6) Pagano, M., e Gauvreau, K. Princípios de Bioestatística, Segunda Edição São Paulo: Thomson, 2004 7) Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer. 8) Venables WN, Smith DM, et al. (2002). An introduction to R: notes on R: a programming environment for data. Bristol, Network Theory 9) Dalgaard, P. (2002) Introductory Statistics with R. Springer. 64

32


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.