Aula 1
Introdução Estatística Descritiva (Tabelas e Gráficos)
Prof. Cosme Marcelo Furtado Passos da Silva 1
O que é Estatística?
Um estatístico é aquele que, tendo a cabeça a arder e os pés enterrados no gelo, ainda diz que na média está tudo bem!...
2
1
O que é Estatística?
Usa-se por vezes a Estatística como um bêbado usa um poste de luz: Mais para suporte do que para iluminação...
3
O que é Estatística? Métodos estatísticos são essenciais no estudo de situções em que as características de interesse estão sujeitas, inerentemente, a flutuações aleatórias. Mesmo em um grupo homogêneo de indivíduos, observa-se grande variabilidade entre indivíduos, e no mesmo indivíduo, em ocasiões diferentes. 4
2
O que é Estatística? Conjunto de métodos para a coleta e análise de dados, provenientes de qualquer área do conhecimento, possibilitando a interpretação e construção de inferências neles baseados.
A qualidade das informações depende da qualidade dos dados!!! 5
Motivos para se estudar Estatística • Saber fazer para fazer ou criticar o que está feito. • Tornar-se mais crítico em sua análise de informações quantitativas; • Tornar-se menos sujeito a afirmações enganosas baseadas em números ou gráficos distorcidos. • Aguçar sua capacidade de reconhecer dados estatísticos distorcidos e de interpretar adequadamente dados não distorcidos. • Validar as informações levantadas na dissertação/tese.
6
3
Pesquisa e Dados
• Planejamento de uma pesquisa (definir problema, objetivos, tipo de pesquisa, população e amostra, coleta de dados);
• Dados e variáveis (definir e medir variáveis);
• Elaboração de questionário (definir forma de aplicação, fazer teste piloto); 7
Amostragem
8
4
TĂŠcnicas de Amostragem
9
TĂŠcnicas de Amostragem
10
5
Técnicas de Amostragem
11
Fases para Análise Estatística
Estatística
Planejamento
Descritiva
Inferencial
12
6
Estatística Descritiva
O que deve ser feito com os dados depois que eles foram coletados? O que pode ser concluído a partir da informação disponível? 13
Folha de Dados OBSERVAÇÕES
Identificação Sexo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
VARIÁVEIS
Idade 1 2 2 1 1 1 2 2 1 2 1 1 2 2 2 1 2 1 1 2 1 2 2 1 1 2 1 2 1
Fuma 35 27 32 45 63 54 78 36 42 39 51 63 32 41 54 56 65 48 37 46 51 48 53 62 39 47 58 62 34
0 1 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0
Tratamento 1 2 3 1 1 2 1 3 3 2 1 3 1 1 2 2 3 2 1 3 2 1 1 1 3 3 2 2 3
Raça negra branca negra pardo mulato branca
14
7
Descrição e Apresentação de Dados Basicamente, a Análise Descritiva consiste na organização e descrição dos dados, na identificação de valores que represente
o elemento típico
e
na
percepção, avaliação e quantificação da variabilidade do conjunto de dados. Além de se familiarizar com os dados, possibilita identificar estruturas interessantes, como a de valores atípicos. 15
Descrição e Apresentação de Dados
• Em estudos pequenos podemos descrever cada observação (este procedimento é tedioso). Ex: Estudo de casos
• Na
maioria
das
vezes
é
impossível
analisar
observação por observação. Ex: Pesquisas domiciliares 16
8
Descrição dos Dados
Há
várias
formas
de
sumarizar
os
dados,
dependendo da natureza dos dados. As mais utilizadas são: ●Tabelas ●Gráficos ●Medidas-resumo numéricas 17
Distribuição de Freqüências Tabela de Dados Brutos: obtidos diretamente da pesquisa. Sem tratamento ou síntese. Exemplo: Teor de gordura fecal (g/24 horas) em 43 crianças (Penna, 1984; Penna et al. 1987) 3,7 1,8 0,8 1,6 2,4
1,6 1,4 3,1 2,9 2,1
2,5 2,7 1,8 2,0 1,3
3,0 2,1 1,0 1,0 2,7
3,9 3,3 2,0 2,7 2,1
1,9 3,2 2,0 3,0 2,8
3,8 2,3 2,9 1,3 1,9
1,5 2,3 3,2 1,5
1,1 2,4 1,9 4,6 18
9
Distribuição de Freqüências
Consiste na construção de uma tabela a partir dos dados brutos, em que se leva em consideração a frequência com que cada observação ocorre. A interpretação pode ser auxiliada pela análise de gráficos. 19
Distribuição de Freqüências com intervalos de classe Exemplo: Uma das tarefas rotineiras na prática médica é a comparação de um valor de uma medida de importância clínica, tal como parâmetros hematológicos com um padrão. Uma vez que há uma grande variação dessas medidas entre diferentes pacientes, o padrão não é um número, mas uma faixa. Para a construção desta faixa são obtidos dados através da medição da característica de interesse em um grupo representativo de pessoas supostamente sadias. 20
10
Tipos de Dados (Variáveis) Facilita o tratamento estatístico de variáveis, classificá-las em categóricas e quantitativas: Variável é a quantificação ou categorização da característica de interesse do estudo. Nominal Qualitativa (categórica)
Ordinal
Variável Discreta Quantitativa (numérica)
Contínua
21
Tipos de Dados (Variáveis)
• Variável resposta: variável a ser explicada no estudo. • Variável explicativa ou covariável: variável que serve de suporte na explicação da variabilidade da variável reposta.
Conhecer o tipo da variável resposta é um ponto de partida para determinar os métodos de análise mais apropriados ou válidos. 22
11
Exemplo de Dados Coletados Questionário de um Inquérito Epidemiológico: Qual é a sua idade?
Idade
Qual o número de pessoas da sua
Tamanho da família
família? Qual é a renda total de sua família?
Renda familiar
Qual é o seu estado civil?
Estado Civil
Você tem emprego fixo?
Emprego 23
Variáveis Nominais Não há ordem entre as categorias:
• 1. 2. 3. 4.
Estado Civil: Casada Solteira Separada / divorciada Viúva
• Sexo: 1. Feminino 2. Masculino Variável binária ou Dicotômica
• Tipo sanguíneo: A, B, AB, O ⇒ mais categorias 24
12
Variáveis Nominais - Distribuição de Freqüências: Casos de Sarcoma de Kaposi para os primeiros 2560 casos de Aids registrados nos Centro de Controle de Doença, Atlanta, Geórgia. Sarcoma de Kaposi
Número de casos
Sim Não
246 2314 25
Variáveis Nominais - Distribuição de melanomas por localização anatômica Localização anatômica No de casos Percentual (Freqüência (Freqüência absoluta) relativa) Cabeça/pescoço
10
33,3
Tronco Membros superiores Membros inferiores Acral Total
7 6 2 5 30
23,3 20,0 6,7 16,7 100
26
13
Variáveis Ordinais A ordem deve ser levada em consideração: • Auto-avaliação do estado de saúde: 1. Muito boa 2. Boa 3. Regular 4. Ruim 5. Muito ruim • Estadiamento de uma doença: leve, moderada, grade 27
Tabelas de Dupla Entrada (Tabelas de Contingência) Estudo para avaliar a efetividade do uso de capacetes de segurança de acidentes de bicicleta. Amostra de 793 indivíduos envolvidos em acidentes ciclísticos.
Lesão na cabeça Sim Não Total
Uso de capacete Sim Não 17 218 130 428 147 646
Total 235 558 793 28
14
Comparação entre Grupos/Categorias Comparações entre grupos/categorias devem ser feitas através de freqüências relativas.
Cursinho Aprovados Candidatos
% de Aprovação
Alpha
1600
4000
1600/4000 = 0,40 ou 40%
Beta Gama
400 2400
500 6000
400/500 = 0,80 ou 80% 2400/6000 = 0,40 ou 40%
Qual cursinho pode ser considerado melhor em termos de aprovação de seus alunos? 29
Gráficos – Variáveis Nominais e Ordinais
30
15
Gráficos – Variáveis Nominais e Ordinais
31
Variáveis Discretas Ordem e magnitude são importantes. Os valores diferem entre si por quantidades fixas. Nenhum valor intermediário é possível. Geralmente são resultados de contagens. • Tamanho da família: (1, 2, 3, 4, ...18) • Número de internações desde 1980 a 2004 • Número de óbitos 32
16
Variรกveis Discretas
33
Variรกveis Discretas
34
17
Variáveis Contínuas Os valores possíveis pertencem a um intervalo de números reais, que resultam de mensuração. A diferença entre medidas pode ser arbitrariamente pequena e são anotadas até a precisão da medida usada. • Peso; • Altura; • Pressão Sanguínea. 35
Variáveis Contínuas - Tabela
18
Variáveis Contínuas - Histograma
37
Variáveis Contínuas - Histograma
38
19
Variáveis Contínuas - Área - Diferentes formas de construir um histograma sem alterar sua forma. 30 10 50
10
0.06
0.6
10
Freq. Simples
Área=1
0 .2 10
0.2
0.2
Freq. Relativa
0.02
0.02
Densidade
39
Variáveis Contínuas Polígono de Freqüências
40
20
Variáveis Contínuas Polígono de Freqüências Vantagem: sobreposição
41
Variáveis Contínuas Polígono de Freqüência Acumulada
42
21
Variáveis Contínuas Diagrama de Pontos Distribuição do Teor de gordura fecal (g/24 horas) em 43 crianças
1
2
3
4 43
Variáveis Contínuas Diagrama de Ramo-e-Folhas The decimal point is 2 digit(s) to the right of the | 0 | 11 0| 1|2 1 | 5556777778888888899999 2 | 000000011111111122222233333333444444 2 | 5555566678888899 3|2 3|6 4| Taxa de colesterol (mg/dL) 4|8 em 80 indivíduos. 44
22
Diagrama de dispersão (Variável numérica X variável numérica)
45
Gráfico de Linhas (Variável numérica no tempo)
46
23
Aspectos Gerais – Distribuição de Freqüências • Tendência Central • Variabilidade • Forma
47
Aspectos Gerais – Distribuição de Freqüências -
48
24
Exercícios
Classifique as variáveis abaixo quanto ao tipo (qualitativa nominal, qualitativa ordinal, quantitativa discreta, quantitativa contínua): 1) Número de crises depressivas sofridas por cinco pessoas: 3, 1, 2, 3, 2; 2) Área (em metros quadrados - m2) ocupada de três consultórios: 9, 12, 10; 49
Exercícios 3) Cor de olhos de quatro pacientes: verde, castanho, azul, castanho; 4) Diâmetro (em cm) do pulso de cinco pessoas: 18, 17, 15, 17, 16; 5) Nível de depressão de quatro pacientes de um Psicólogo: Baixo, Alto, Alto, Regular; 6) Número de internações de quatro pacientes de um Psicólogo: 2, 1, 3, 3;
50
25
Exercícios
7) Distância percorrida (em quilômetros - Km) por cinco atletas em treinamento: 8, 6, 12, 8, 11; 8) Doenças manifestadas em quatro pacientes internados no setor de pediatria: sarampo, catapora, sarampo, rubéola; 9) Estatura (em cm) de cinco pessoas: 178, 177, 176, 177, 176; 10) Número de dentes obturados por cinco dentistas em um dia de trabalho: 13, 12, 14, 11, 12; 51
Exercícios 11) Fator Rh do sangue de três pacientes: negativo, positivo, negativo; 12) Grau de instrução de cinco pessoas entrevistadas: superior, superior, médio, fundamental, médio; 13) Número de filhos de quatro casais: 2, 1, 2, 0; 14) Grupo sangüíneo de seis pessoas: O, AB, O, A; O, B; 15) Nacionalidade de cinco estrangeiros: Portuguesa, Portuguesa, Francesa, Americana, Japonesa;
52
26
Exercícios 16) Número de visitas feitas ao Brasil por cinco turistas estrangeiros: 4, 3, 2, 4, 2; 17) Patente de quatro militares: soldado, sargento, soldado, coronel; 18) Peso de cinco pacientes em kg: 45, 46, 45, 47, 47; 19) Número de sessões de Psicologia de cinco pacientes: 5, 6, 7, 6, 6; 20) Plantação de cinco fazendas: milho, café, soja, soja, café; 21) Pressão sangüínea de quatro pacientes: 10, 12, 11, 11;
53
Exercícios
22) Número de pacientes internados, em um ano, em cinco clínicas: 44, 32, 34, 41, 29; 23) Profissão de cinco pessoas: Fisioterapeuta, Psicólogo, Fisioterapeuta, Médico, Psicólogo; 24) Raça de quatro pessoas: negra, branca, amarela, negra; 25) Número de livros lidos por cinco pessoas, em um ano: 10, 10, 7, 9, 9. 54
27
Bibliografia 1) Soares, J F; Siqueira, A L. Introdução à Estatística Médica. Coopmed Editora Médica, 2a edição, 2002, Belo Horizonte, MG. 2) Magalhães, M. N.; Lima, A. C. P (2005). Noções de Probabilidade e Estatística. 6ª ed. Edusp. São Paulo. 3) Silva, Nilsa Nunes (2004). Amostragem Probabilística: Um curso introdutório. Edusp. Brasil. 4) Mood, A. M. et al. 1974. Introduction to the Theory of Statistics. 3. ed. Tokyo, McGraw-Hill Kogakusha. 5) Triola, M.F. Introdução à Estatística. Rio de Janeiro: LTC Editora, 1999 6) Pagano, M., e Gauvreau, K. Princípios de Bioestatística, Segunda Edição São Paulo: Thomson, 2004 7) Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer. 8) Venables WN, Smith DM, et al. (2002). An introduction to R: notes on R: a programming environment for data. Bristol, Network Theory 9) Dalgaard, P. (2002) Introductory Statistics with R. Springer. 55
28