Antonio F. Beraldo
Estatística I
Estatística Descritiva V.3 – 2013
Estatística Descritiva Antonio Fernando Beraldo
Departamento de Estatística ICE — UFJF
Revisão e digitação Ana Darc da Silva Elisa Lancini Nogueira Lucas Silva Novais Marcelle Souza Pinto Mirela Rigolon Valinote Raphael de Freitas Saldanha Rosiany Grosman Stéfani Ferreira Vanessa Castro Abreu Victor Lopes Costa Serra Versão 3 — 2013
Apresentação Esta Apostila é o primeiro volume de um conjunto de textos preparados para os alunos dos cursos de Graduação e Pós-Graduação que possuem disciplinas de Estatística em sua grade curricular. Os textos abordam os seguintes temas: Apostila I II III IVa IVb V VI
Conteúdo Estatística Descritiva Cálculo de Probabilidades Amostragem, Inferência e Testes Estatísticos Metodologia do Trabalho Científico Elaboração e Apresentação de Trabalhos Científicos Análise Estatística de Dados Tópicos Especiais de Estatística Aplicada
Em cada capítulo das Apostilas procuramos sintetizar os conteúdos, em textos breves de exposição dos conceitos, seguidos de exemplos de aplicações das fórmulas. Outros materiais didáticos, referenciados no corpo das Apostilas, estão disponíveis no site do Professor: http://www.ufjf.br/antonio_beraldo
A. F. Beraldo
iii
Agradecimentos Este é um trabalho que reflete a experiência - e aprendizagem - do ensino de Estatística e a valiosíssima contribuição dos alunos nestes 21 anos de atividades na Universidade Federal de Juiz de Fora, como também a prática da aplicação da Estatística em dezenas de dissertações e teses de mestrandos e doutorandos de diversas IES do País. Sem esta contribuição, este trabalho não existiria. Em destaque, agradeço ao estímulo das professoras doutoras Martha de Oliveira Guerra e Vera Maria Peters, do Centro de Biologia da Reprodução; à paciência abnegada de Renata Márcia de Figueiredo, PhD, pela revisão do texto básico da edição inicial (1998); A todos os alunos que, com suas críticas e sugestões, me ensinaram o como, o quando e o quê. Este trabalho é dedicado, in memoriam, a meu pai. Wilson João Beraldo (1918 - 1994)
A. F. Beraldo
v
Sumário Sumário
vi
1 Introdução à Estatística 1.1 O Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos . . . . . . . . .
1 16 21
2 Medidas Estatísticas de Tendência Central 2.1 Média . . . . . . . . . . . . . . . . . . . . . 2.1.1 Média Aritmética . . . . . . . . . . . 2.1.2 Média Aritmética Ponderada . . . . . 2.1.3 Média Geométrica . . . . . . . . . . 2.1.4 Média Harmônica . . . . . . . . . . . 2.1.5 Propriedades da Média Aritmética . 2.2 Moda . . . . . . . . . . . . . . . . . . . . . . 2.3 Mediana . . . . . . . . . . . . . . . . . . . . 2.4 Ponto Médio . . . . . . . . . . . . . . . . . .
. . . . . . . . .
31 31 31 33 34 35 38 39 41 43
. . . . .
45 46 47 49 53 59
. . . .
61 61 67 73 75
3 Medidas Estatísticas de Dispersão 3.1 Amplitude . . . . . . . . . . . . . 3.2 Desvios e Desvio Médio . . . . . . 3.3 Variância e Desvio Padrão . . . . 3.4 Coeficiente de variação . . . . . . 3.5 Propriedades da variância . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
. . . . . . . . .
. . . . .
4 Estatística em Grandes Conjuntos: Distribuições de Frequências 4.1 Frequências Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência . . 4.3 Frequências Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Frequências Relativas Acumuladas e a Ogiva de Galton . . . . . . . . 5 Estatística em Grandes Dispersão 5.1 Cálculo da Média: . . 5.2 Cálculo da Moda . . 5.3 Cálculo da Mediana . vi
. . . . . . . . .
. . . . .
. . . .
Conjuntos: Medidas de Tendência Central e 81 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 A. F. Beraldo
SUMÁRIO
5.4 5.5
5.3.1 Roteiro para o cálculo da mediana . . . . . . . . . . . . . . . . . . Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação . . Exemplos Comentados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
90 94 99
6 Estatística em Grandes Conjuntos: Medidas de Posição 103 6.1 Cálculo de Quartis e Percentis . . . . . . . . . . . . . . . . . . . . . . . . 109 6.2 Determinação Gráfica das Separatrizes . . . . . . . . . . . . . . . . . . . 114 6.3 Determinação Gráfica de intervalos . . . . . . . . . . . . . . . . . . . . . 118 7 Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose 7.1 Simetria e Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
121 121 128 135
8 Introdução à Análise Exploratória de Dados 8.1 Fundamentos da Análise Exploratória . . . . . . . . . . . . . . . . . . . . 8.2 Determinação dos Quartis: . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Cálculo das Cercas e o Box-Plot . . . . . . . . . . . . . . . . . . . . . . .
141 141 145 148
A. F. Beraldo
vii
Introdução à Estatística
1
A Estatística é um conjunto de métodos que, utilizando procedimentos matemáticos, visa conhecer e descrever a realidade que nos cerca, analisar seus fenômenos naturais e sociais e organizar e fornecer informações de apoio às Ciências. A Estatística é uma das Matemáticas, assim como a Geometria, a Trigonometria e o Cálculo Integral. E não há, na vida contemporânea, praticamente nenhum setor de atividade humana em que não faça uso da Estatística. Os verbos da Estatística são:
Contar Contar é o processo matemático mais primitivo para se conhecer a realidade. Provavelmente, o processo de contagem começou há muitos milhares de anos atrás, junto com a descoberta do fogo e com o desenvolvimento das primeiras habilidades de caça. Segundo os especialistas1 , o homem primitivo contava até 2 – acima desta quantidade, deveria existir um gesto para significar “muitos” (até hoje, algumas tribos primitivas contam no máximo até 3). Depois, talvez com auxílio dos dedos das mãos, formou-se aos poucos o sistema decimal. Com a evolução cultural e tecnológica, alguns povos adotaram sistemas diferentes, como o vintesimal (múltiplos de vinte2 ) e o sexagesimal3 . Em pinturas rupestres e inscrições talhadas em pedras, vemos como nossos antepassados enumeravam os objetos do seu mundo – pedaços da sua “realidade”: membros do grupo, produtos agrícolas, animais domesticados, a caça abatida, etc. Mas, quando esta “realidade” se torna muito numerosa (muitas pessoas, muitos bens, rebanhos maiores), a contagem de seus componentes passa a ser bem mais trabalhosa. A Estatística começou quando o homem precisou enumerar (recensear) seus bens, seus rebanhos, a colheita e os exércitos. Estas informações sempre foram vitais para os reis e governantes, e as contagens eram feitas periodicamente, a seu mando. Temos notícias de levantamentos feitos na China, 2.000 anos a.C., na Bíblia (informações sobre o contingente de soldados e armas do povo judeu), dos recenseamentos no Império
1
Ver Boyer, História da Matemática, Ed. Edgar Blucher Ltda/USP, São Paulo, 1976. Como os franceses dizem “oitenta”? 3 A “contagem” do tempo é feita, até hoje, neste sistema. Veja também as medidas utilizadas na trigonometria. 2
A. F. Beraldo
1
1. Introdução à Estatística
Romano (população e extensão territorial)4 , das coletas de dados feitas pelos árabes no século VIII. Ainda na Idade Média, Carlos Magno, rei dos francos e Imperador do Ocidente, organizou o Estado a partir da contagem de seus súditos e de suas propriedades. Guilherme, o Conquistador, ordenou a elaboração do Domesday Book, um curioso catálogo dos bens do reino5 (Inglaterra, 1085-6) e de sua produção, para fins de coleta de impostos. Como se pode ver, a Estatística sempre foi associada ao Estado (daí seu nome). Ainda na Inglaterra, mas no séc. XVII temos o trabalho de um dos primeiros “demógrafos”, John Graunt, (1620-1674) que pesquisou o crescimento da população de Londres, a proporção entre os sexos das crianças e dos adultos, e a causa da morte de milhares de pessoas nas várias tabelas do livro Natural and Political Observations Made upon the Bills of Mortality (1662), que surpreende pela atualidade e pela metodologia6 . Censos demográficos são realizados a cada 10 anos desde 1790 nos EUA, desde 1791 na França, e desde 1801 na Grã Bretanha. No Brasil em 1872, foi realizado o primeiro recenseamento nacional no país, o qual recebeu o nome de Recenseamento da População do Império do Brasil. Depois deste e até 1940, novas operações censitárias sucederam-se em 1890, 1900 e 1920. Em 1910 e em 1930, não foram realizados os recenseamentos7
4
Os habitantes do Império Romano tinham que responder ao census na sua cidade de origem, e a punição para quem fugisse ou não respondesse era a pena de morte. Segundo a Bíblia, os pais de Jesus, Maria e José, tiveram que empreender uma viagem de Nazaré, na Galiléia, até Belém, na Judéia, para responder ao Censo ordenado por César. 5 Está na Internet, transposto para o inglês de hoje: http://www.domesdaybook.co.uk/index. html. Se você lê bem em inglês, divirta-se. 6 Veja o site http://www.edstephan.org/Graunt/graunt.html. 7 Veja: http://www.ibge.gov.br/ibgeteen/censo2k/brasil.html
2
A. F. Beraldo
A seguir, um histograma de frequência mostra a composição percentual da população brasileira segundo o Censo de 2010:
Figura 1.1: População Brasileira Urbana (2010) distribuição percentual por faixas etárias Fonte: Pirâmide Etária, disponível em http://www.ibge.gov.br/censo2010/piramide_etaria/index.php
Segundo o IBGE, o Censo Demográfico de 2010 contou uma população de 190.732.694 pessoas (Nov/2010). Cada 1% no gráfico acima corresponde a cerca de 1,9 milhões de habitantes. Em 10 anos, a população aumentou em quase 21 milhões de habitantes, ou seja, grosso modo, cresceu, em média, 4 habitantes por minuto (diferença entre nascimentos e mortes). No entanto, a taxa de crescimento está declinando: segundo o Banco Mundial, deve passar dos atuais 0,9 para 0,24 em meados deste século. No país, como um todo, as proporções eram, em 2010, de 48,3% do sexo masculino e de 51,7% do sexo feminino, ou seja, havia 1,07 brasileira para cada brasileiro. A proporção masculino/feminino é maior na Região Norte (0,97) e menor na Região Nordeste (0,91).
A. F. Beraldo
3
1. Introdução à Estatística
Medir Alguns fenômenos não são “contáveis” são mensuráveis. As técnicas de medir, cuja história se confunde com a história da Ciência, foram amplamente desenvolvidas pela Estatística. A Estatística tem a sua maneira própria de medir, e suas próprias medidas, chamadas estatísticas: média, moda, variância, desvio padrão, números-índices ... A Estatística mede, por exemplo, a dispersão (ou concentração) de elementos de um conjunto em torno de um elemento central; a probabilidade da ocorrência de defeitos em um produto industrial; a relação entre o nível de renda de uma população e seu consumo de alimentos; a evolução das taxas de mortalidade de indivíduos acometidos de doenças; a posição de um elétron em torno do núcleo do átomo; a classificação provável de determinado candidato num concurso vestibular (entre milhares de candidatos); o efeito da propaganda nas vendas de um determinado produto; a audiência de um programa de televisão; a intenção de votos em um candidato a prefeito... Um bom exemplo do que seja calcular uma medida estatística sobre uma grande massa de dados é o cálculo do valor do PIB – Produto Interno Bruto, soma das riquezas produzidas pela indústria, agropecuária e serviços, durante um determinado período. É um dos principais indicadores econômicos de um país, e sua evolução, ano a ano, revela o comportamento de sua economia. O cálculo do PIB, no entanto, não é tão simples. Imagine que o IBGE queira calcular a riqueza gerada por um artesão. Ele cobra, por uma escultura, de madeira, R$ 30. No entanto, não é esta a contribuição dele para o PIB. Para fazer a escultura, ele usou madeira e tinta. Não é o artesão, no entanto, que produz esses produtos – ele teve que adquiri-los da indústria. O preço de R$ 30 traz embutido os custos para adquirir as matérias-primas para seu trabalho. Assim, se a madeira e a tinta custaram R$ 20, a contribuição do artesão para o PIB foi de R$ 10, não de R$ 30. Os R$ 10 foram a riqueza gerada por ele ao transformar um pedaço de madeira e um pouco de tinta em uma escultura. O IBGE precisa fazer esses cálculos para toda a cadeia produtiva brasileira. Ou seja, ele precisa excluir da produção total de cada setor as matérias-primas que ele adquiriu de outros setores. Depois de fazer esses cálculos, o instituto soma a riqueza gerada por cada setor, chegando à contribuição de cada um para a geração de riqueza e, portanto, para o crescimento econômico8 .
8
Adaptado de Folha On Line http://www1.folha.uol.com.br/folha/dinheiro/ult91u105544. shtml
4
A. F. Beraldo
Figura 1.2: Evolução percentual do Produto Interno Bruto – Brasil Fonte: Indicadores Econômicos do Banco Central do Brasil
O PIB (Produto Interno Bruto) do Brasil, em 2010, foi de 3,675 trilhões de reais, um crescimento de cerca de 7,5%.. O PIB per capita, foi de cerca de R$ 19 mil, um crescimento de 6,5% sobre 20099 .
9
http://oglobo.globo.com/economia/mat/2011/03/03/pib-brasileiro-fecha-2010\ -com-crescimento-de-7-5-maior-desde-1986-aponta-ibge-923926837.asp
A. F. Beraldo
5
1. Introdução à Estatística
Classificar Classificar é quase uma decorrência natural dos processos de contar e de medir. Medidas estatísticas conduzem à colocação dos fenômenos (e de suas variáveis10 ) em classes. Classificar pode ser entendido como categorizar (colocar em categorias - A, B, C, D ...) ou ordenar (colocar em postos: 1o lugar, 2o lugar 3o lugar, etc.). A Estatística possui também suas medidas especiais de classificação, como as separatrizes e os escores padronizados, entre outras. Estes processos vêm desde o século XVII, com os estudos de Estatística Demográfica, de John Graunt, até a Análise Exploratória de Tukey, com suas técnicas modernas de análise de dados numéricos. Na figura a seguir, um exemplo de aplicação da Estatística Descritiva:
Figura 1.3: Distribuição percentual das classes econômicas, segundo a metodologia da ABEP Fonte: Associação Brasileira de Empresas de Pesquisa, Brasil, 2009.
10
Variáveis são os valores produzidos na ocorrência de um fenômeno. Este é um assunto importante, que será abordado muitas vezes durante este curso.
6
A. F. Beraldo
Segundo os critérios da ABEP, as classes econômicas, em termos de poder aquisitivo, têm a seguinte renda média: Tabela 1.1: Classes Econômicas - Brasil - 2008 Classe Econômica A1 A2 B1 B2 C1 C2 D E Fonte: http://www.abep.org
Média em R$ do poder aquisitivo 14.366 8.099 4.558 2.327 1.391 933 618 403
Relacionar A Estatística estuda os relacionamentos entre os fenômenos, no tempo e no espaço. Através de um conjunto de medidas estatísticas, procura-se determinar se existe uma correlação (ou interdependência) entre duas ou mais variáveis e, se esta relação existir, se é forte ou fraca. Pode-se investigar, por exemplo, a relação existente entre a escolaridade de uma população e a incidência de uma determinada doença; a correlação entre o número de animais predadores em um lugar e os tipos de presas existentes nesta região; o rendimento escolar de alunos e seu quociente de inteligência; o número de acidentes de trânsito e a quantidade de veículos em circulação... Veja, a seguir, um exemplo de correlação entre dois atributos de um grupo de pessoas: peso e estatura.
Figura 1.4: Pesos e estaturas médias de 100 indivíduos do sexo masculino
A. F. Beraldo
7
1. Introdução à Estatística
Figura 1.5: Curva de correlação entre os pesos e as estaturas médias de 100 indivíduos do sexo masculino Os dois gráficos acima mostram o estudo da correlação entre pesos e estatura de 100 estudantes de um colégio da cidade. Na figura 1.4 estão os dados colocados no gráfico, e, na figura 1.5, a curva de correlação – uma espécie de ajustamento ideal entre o peso e estatura, a equação da curva de correlação e a estatística R2 - “r ao quadrado” - que mostra o grau de correlação linear entre as duas variáveis. Quanto mais próximo de R2 = 1, 0; melhor a correlação entre os valores das duas variáveis.
8
A. F. Beraldo
Comparar Comparar grandezas é uma das áreas onde mais se aplicam os processos estatísticos. São as estatísticas chamadas números-índices, entre outras, de larga utilização na Economia, nas Ciências Sociais, na Medicina, na Administração Pública, etc. Ao comparar valores destas grandezas entre diversos países ou regiões, em épocas diferentes, procura-se, desta forma, medir a evolução destas grandezas - o que fornece os parâmetros para o planejamento governamental das políticas sociais e econômicas, entre muitos outros exemplos.
Figura 1.6: IDH-M das quatro melhores e quatro piores cidades, Brasil, 2000 Fonte: PNUD - Atlas do Desenvolvimento Humano, 2008.
O IDH, Índice de Desenvolvimento Humano, é uma estatística elaborada e calculada pela ONU (PNUD), que leva em consideração dados sobre a Educação, Saúde e Renda per capita de uma região (cidade, estado, país) em determinado ano. Quanto mais próximo de 1, melhor a situação do país com relação a estas variáveis. Quanto mais próximo de zero, pior. O IDH do Brasil é de 0,699 (2010) que o coloca em 73o lugar entre os 169 países pesquisados. Os maiores valores do IDH (2010) foram os da, pela ordem, Noruega, Austrália, Nova Zelândia, Estados Unidos e Irlanda. Os piores índices são dos países Zimbábue, República Democrática do Congo, Níger, Mali e Burkina Faso11 .
11
http://g1.globo.com/brasil/noticia/2010/11/brasil-ocupa-73-posicao-entre-169\ -paises-no-idh-2010.html
A. F. Beraldo
9
1. Introdução à Estatística
Prever As técnicas de previsão estatística (forecasting), baseadas no Cálculo de Probabilidades, constituem o ferramental básico dos Sistemas de Apoio às Decisões. Principalmente a Análise de Séries Temporais (onde os fenômenos se relacionam diretamente com o passar do tempo), que talvez seja o ramo da Estatística de maior desenvolvimento nos últimos anos. A previsão estatística, conjugada com as técnicas de correlação e de comparação, auxilia no planejamento das ações e no desenvolvimento das empresas, das instituições governamentais e de tecnologia - de prognósticos do comportamento das carteiras de ações na Bolsa de Valores ao lançamento de satélites espaciais. Uma parte importante da previsão estatística é a Atuária, ou Cálculo Atuarial, que trata dos cálculos de seguros (de vida, de acidentes, de doenças, etc.), tendo por base o Cálculo de Probabilidades. A seguir, gráficos mostrando a evolução de duas medidas estatísticas muito importantes em Demografia e nas Políticas Públicas em Saúde: Expectativa de Vida, a Taxa de Natalidade, e a Taxa de Fecundidade (Fonte: Censo 2000 e PNAD 200312 ).
Figura 1.7: Expectativa de Vida ao Nascer
12
PNAD é a abreviação de Pesquisa Nacional por Amostragem Domiciliar. É uma pesquisa feita pelo IBGE com periodicidade menor do que o Censo, e é utilizada para acompanhar a evolução de algumas estatísticas.
10
A. F. Beraldo
Figura 1.8: Expectativa de Vida ao Nascer (Reta de Regress達o)
Figura 1.9: Expectativa de Vida ao Nascer (Previs達o)
A. F. Beraldo
11
1. Introdução à Estatística
Inferir Inferir é o processo estatístico em que se estima o valor de uma medida da população (chamada parâmetro13 ) a partir do valor desta mesma medida, calculada sobre uma Amostra retirada da população. Por exemplo, queremos saber qual é a taxa de fertilidade (número de filhos por mulher) da população do Brasil. Em outras palavras, desejamos saber o parâmetro “número de filhos por mulher”. Esta população é muito numerosa (em torno de 60 milhões de mulheres). Sorteamos, então, uma Amostra de 2.400 mulheres desta população e, com os dados desta amostra, calculamos duas estatísticas14 : a média e o desvio-padrão15 . A partir destas estatísticas, dizemos (por exemplo) que a taxa de fertilidade atual no Brasil está “em torno” de 2,8 filhos por mulher. Ou seja, estimamos o valor do parâmetro de uma população a partir de estatísticas amostrais.
Figura 1.10: Inferir
13
Parâmetro: É o valor de uma medida, referente a população. Estatística: É o valor de uma medida referente à amostra. 15 Média e desvio-padrão são medidas que estudamos no Capítulo 2 desta Apostila. 14
12
A. F. Beraldo
Testar Testes Estatísticos são processos de verificação da igualdade ou desigualdade entre duas ou mais medidas - entre valores esperados (ou previstos) e valores ocorridos, por exemplo, ou entre estatísticas de dois ou mais conjuntos, separados no tempo ou no espaço. Pode se testar estatisticamente a eficiência de um processo (uma dieta, por exemplo), ou a eficácia de uma ação (um método de aprendizagem), as diferenças entre os resultados de dois ou mais tipos de tratamentos médicos (a cura pela sugestão, pela alopatia ou pela homeopatia). A seguir, uma ilustração de uma pesquisa experimental onde se testa a eficácia de um medicamento em um grupo de pessoas.
Figura 1.11: Pesquisa experimental Na figura 1.11, um experimento científico que consiste em analisar os efeitos de uma droga. São dois grupos de pessoas. O primeiro grupo, chamado de Estudo, ou Experimental, recebe a droga; o segundo grupo, chamado de grupo de Controle, não recebe a droga, mas um composto inócuo, chamado Placebo. A Estatística fornece recursos para avaliar os efeitos da droga administrada, comparando as variações entre os dois grupos, e verificando se a droga produz realmente o efeito que se espera.
A. F. Beraldo
13
1. Introdução à Estatística
Modelar O que faz um cliente do supermercado tomar a decisão de comprar um produto de determinada marca, e não de outra? Quais são os fatores de risco de alguém tornar-se diabético? Em crianças em processo de alfabetização, o que facilita e o que dificulta a aprendizagem? Tomada de decisões, incidência de doenças e processos de aprendizagem são exemplos de fenômenos complexos que ocorrem, associados – ou determinados – por vários “fatores”. Saber quais são os fatores mais importantes, qual o impacto de associação de fatores, e quais as consequências de realçarmos um ou mais fatores são alguns aspectos da análise de modelos multivariados.
Cuidado para não confundir rendimento escolar com aprendizagem. Rendimento escolar é o que é apurado nas provas, trabalhos, atividades, etc (nota é uma variável objetiva, quantitativa). Aprendizagem é uma variável latente (veja mais em “Variáveis latentes”, página 28).
Suponha que estamos pesquisando os fatores que interferem no rendimento escolar dos alunos da última série do ensino médio. O simpático menino da figura acima, que faz parte do grupo pesquisado pode ser “descrito” pelas suas variáveis: sexo, idade, condição econômica familiar, constituição da família (pais casados, pais separados, pais em união estável, etc.), escolaridade dos pais, relação idade/série, número de repetências, e muitos outros atributos. E, é claro, as variáveis referentes às notas (rendimento escolar). Modelo é a representação estruturada de um fenômeno a partir de hipóteses de relacionamento de suas variáveis. Por exemplo,
Figura 1.12: Fatores em um modelo 14
A. F. Beraldo
Um modelo é uma simplificação – uma representação esquemática -, de como percebemos os fenômenos. Matematicamente, escrevemos
Y = B1 x1 + B2 x2 + B3 x3 + · · · + Bn Xn Exemplificando (bem superficialmente): Pense no fenômeno da aprendizagem. Considere que aprender determinado assunto está relacionado (associado) com as variáveis “horas de estudo”, “material didático” (quantidade e qualidade), “capacidade do professor”, “escolaridade dos pais”, “simpatia com a matéria”, entre outras. Estas são as variáveis, que aparecem no modelo como x1 , x2 , x3 , . . . , xn Cada variável está multiplicada por um B, que mede a importância que atribuímos a esta variável. Os valores de B1 , B2 , B3 , . . . , Bn podem ser altos, baixos, ou mesmo nulos, conforme seu “peso”. Considere, por fim, que podemos medir esta “aprendizagem” por meio de exames (provas, testes) que, bem elaborados, pontuam (quantificam) esta “aprendizagem”. Os valores obtidos nos testes são os valores de Y . Assim, podemos correlacionar Y com as variáveis, que no nosso modelo, favorecem ou são obstáculos para a “aprendizagem”.
A. F. Beraldo
15
1. Introdução à Estatística
1.1
O Método Estatístico
Imagine o conjunto de moradores do Bairro B: são pessoas que tem os mais diversos atributos – idade, estado civil, naturalidade, renda, etc. –, que desejamos conhecer. No entanto, todos estes moradores possuem pelo menos um atributo em comum: são pessoas residentes no Bairro B.
Figura 1.13: O conjunto Universo
Para efeito de análise estatística, estes moradores do Bairro B são agrupados em um conjunto que denominamos Universo, notado pelo símbolo Ω. Pertencem ao conjunto Universo todas as pessoas que possuem este atributo: moradores do Bairro B. Estão “fora” do Universo todas as pessoas que não possuem este atributo. Os demais atributos dos moradores podem ser descritos por um conjunto de valores denominado variável. Assim, temos as variáveis sexo, idade, estado civil, renda, etc. Assume-se, para efeito de estudo, que estas variáveis são aleatórias, ou seja, seus valores não são influenciados por nenhum fator externo16 . As variáveis de um conjunto Universo (e o próprio conjunto Universo) são descritas por medidas chamadas parâmetros. Por exemplo, as variáveis idade, renda, escolaridade (medida em anos de estudo) tem, cada uma, os parâmetros média (µ), variância (σ 2 ), desvio-padrão (σ); as variáveis sexo, escolaridade (medida em nível de ensino) e naturalidade, tem, cada uma, o parâmetro proporção (π).
16
O conceito de variável aleatória é explicado em profundidade na Apostila II – Cálculo de Probabilidades.
16
A. F. Beraldo
1.1 O Método Estatístico
Um parâmetro é uma medida de uma variável do conjunto Universo, e recebem como símbolo, as letras do alfabeto grego.
Um conjunto Universo é suposto de tamanho infinito, ou finito. Mesmo sendo de tamanho finito, sempre partimos do princípio que estes conjuntos têm um tamanho muito grande – um número muito grande de elementos. Este “tamanho muito grande” torna extremamente difícil, senão impossível, a obtenção destes parâmetros. Para estudarmos o Universo, dispomos de dois métodos principais: o Censo e o Método Estatístico. Censo, ou recenseamento é o processo de coleta de dados em que todo o conjunto universo é pesquisado. Todos os elementos do conjunto são estudados, um a um, e o censo só termina quando todo o conjunto universo for abrangido. Censos são trabalhosos, demorados, dispendiosos e, por isso mesmo, são realizados apenas por instituições oficiais e por órgãos do governo. Censos demográficos são realizados de dez em dez anos, quando uma grande quantidade de recenseadores é recrutada para coletar dados sobre a população, através de questionários. Desta forma, podemos medir a evolução de dados como a população das cidades e do meio rural, as taxas de natalidade e mortalidade, as características da etnia, o credo religioso, as migrações internas, etc.
Figura 1.14: O Censo
A. F. Beraldo
17
1. Introdução à Estatística
Portanto, o Censo17 é uma investigação extensiva a todos os elementos do Universo, e também intensiva, pois, na oportunidade da realização de um Censo, são coletados dados sobre centenas de variáveis, como “características gerais da população, educação, migração, nupcialidade, trabalho, famílias e domicílios (...) informações sobre a população residente por sexo, cor ou raça, religião, categorias de incapacidade ou deficiência física ou mental, nível educacional, movimentos migratórios, situação conjugal, ocupação, rendimento de trabalho, tamanho da família e condições habitacionais, entre outros aspectos, para o total do Brasil, grandes regiões e unidades da federação (...) comentários sobre as características selecionadas em cada um dos temas e as diferenças regionais observadas, notas e anexos contendo a Classificação de Religiões, desenvolvida pelo IBGE e o Instituto Superior de Estudos da Religião - ISER, e a Classificação Nacional de Atividades Econômicas - Domiciliar.”18 O Método Estatístico foi desenvolvido para obtermos o valor estimado dos parâmetros, a partir das medidas de um subconjunto do Universo chamado Amostra. Este método consiste nos seguintes passos: 1. O conjunto Universo é tratado de forma que cada um, e todos os seus elementos, têm a mesma probabilidade de serem sorteados. Este processo é chamado de homogeneização do Universo. Em seguida, alguns elementos do Universo são sorteados para compor um subconjunto chamado amostra (ω):
17
Para se ter uma ideia da magnitude do problema do Censo em um país como o nosso, com seus 8,5 milhões de km2 , O Censo 2010 custou em torno de 1,4 bilhão de reais. Os 240 mil recenseadores, com seus GPS, visitaram 58 milhões de domicílios, em 5.565 cidades, e coletaram dados sobre os mais de 190 milhões de brasileiros. A coleta de dados foi feita não mais em formulários de papel, mas por meio de 220 mil palmtops e netbooks, em cerca de 314 mil setores censitários. Os dados foram transmitidos à central do IBGE via web. Foram duas modalidades de questionários: o “básico”, com 16 perguntas, e o “amostra”, com 81 perguntas, aplicados em 7 milhões de domicílios, sorteados dentro do universo.Entre as novidades deste censo foi a inclusão do item “união homossexual” entre as 20 opções de grau de parentesco com o responsável pelo domicílio, e o mapeamento das cerca de 210 línguas faladas no país (http://www.ibge.gov.br/censo2010/). Um censo é uma espécie de corrida contra o tempo, em termos de atualização de números. Por exemplo, desde que você começou a ler esta nota de rodapé, já nasceram mais de 6 brasileiros (o ritmo estimado é de 4,2 nascimentos/minuto). 18 Veja http://www.ibge.gov.br/censo/divulgacao_impresso.shtm
18
A. F. Beraldo
1.1 O Método Estatístico
Figura 1.15: Universo e Amostra A extração dos elementos do Universo que irão compor a Amostra é um processo que recebe o nome de Amostragem. A Amostragem consiste em uma série de técnicas cuja finalidade é fazer com que os princípios de aleatoriedade sejam respeitados. A Amostra, por ter um tamanho muito inferior ao tamanho do Universo, pode ser observada em sua totalidade (ao contrário do Universo). Estas “observações” são chamadas medidas estatísticas, ou, mais simplesmente, estatísticas (veja o quadro a seguir).
A. F. Beraldo
19
1. Introdução à Estatística
Figura 1.16: Estatística e Parâmetros
Uma estatística é uma medida descritiva de uma variável da amostra, e recebe como símbolo, uma letra do alfabeto latino.
Após o cálculo das estatísticas, prossegue-se com um outro processo estatístico: a Inferência, que consiste no cálculo dos parâmetros (populacionais) a partir das estatísticas (amostrais). População =⇒ Parâmetro. Amostra =⇒ Estatística. 20
A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
Portanto, há uma correspondência entre as medidas amostrais (estatísticas) e as medidas populacionais (parâmetros). Esta correspondência é expressa da seguinte maneira: Parâmetro = Estatística ± Margem de erro
A margem de erro pode ser interpretada como a diferença existente entre as medidas de uma amostra e as do universo de onde foi extraída. Cada estatística possui a sua margem de erro. A margem de erro é função: • Do Nível de Confiança com que se está trabalhando; • Do tamanho da amostra, n; • Das condições do Universo (infinito ou finito), e da dispersão de seus valores; • Do tipo de amostragem que foi realizado (com reposição ou sem reposição).
Todas estas condições serão extensamente estudadas na Apostila Estatística III.
1.2
Atributos e Variáveis: a Natureza dos dados Estatísticos
Na seção anterior, falamos de atributos, que seriam algo como as qualidades ou características que todos os elementos de um Universo (e das amostras dele extraídas) possuiriam. Estes atributos são uma espécie de característica comum aos elementos do Universo. Por exemplo, seja o Universo Ω1 constituído por todos os alunos das universidades brasileiras. O atributo em comum destes elementos do Universo é “estar matriculado em algum curso de alguma universidade brasileira”. Seja um subconjunto deste Universo Ω1 , que chamaremos de Ω2 , formado por elementos que pertencem às universidades federais. Seu atributo comum é “estar matriculado em algum curso de alguma universidade federal brasileira”. Seja, outra vez, outro subconjunto do Universo Ω2 , que chamaremos de Ω3 , que consiste nos estudantes da UFJF. Seu atributo em comum é: “estar matriculado em algum curso da UFJF”. A figura a seguir ilustra a disposição destes conjuntos: Continuemos com o conjunto Ω3 : “alunos matriculados em algum curso da UFJF”. Além deste atributo comum, estes elementos do Universo Ω3 possuem diversas características: curso em que estão matriculados, nível do curso, idade, sexo, estado A. F. Beraldo
21
1. Introdução à Estatística
Figura 1.17: Conjuntos universo
civil, estatura, peso, naturalidade, classe social, classe econômica, número de matrícula, pontuação no vestibular, tipo de moradia em Juiz de Fora, e muitas, muitas outras. Estas características, daqui por diante, passam a se chamar variáveis. Uma variável é uma característica dos elementos do Universo (e da Amostra) que pode ser valorada.
Por exemplo, a variável “curso em que estão matriculados”. Pode assumir os “valores” Arquitetura, Direito, Medicina, Psicologia, Administração, tantos quantos forem os cursos oferecidos pela UFJF. A variável “nível do curso” pode assumir os valores Graduação, Especialização, Mestrado, Doutorado... A variável “idade” pode assumir valores que vão de, digamos, 16 anos até 70 anos. A variável “estatura” pode assumir valores, digamos, de 1,00m a 2,30m. E assim por diante. O domínio da variável (tipo de valores que a variável pode assumir) é que determina o tipo da variável.
22
A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
Estes podem ser:
Figura 1.18: Variáveis Uma variável é dita quantitativa ou numérica quando assume exclusivamente valores numéricos (que representam quantidades). São discretas quando estes valores pertencem ao conjunto dos Naturais ( ), mais o zero ( v ∈: 0, 1, 2, 3, 4, 5, . . . ). Geralmente, estes valores são resultado de um processo de contagem.
N
Uma variável é quantitativa (ou numérica) contínua quando pode assumir valores pertencentes ao conjunto dos Reais, (v ∈ ). Geralmente, estes valores são resultado de uma medição.
R
Uma variável é dita qualitativa, categórica ou nominal, quando pode assumir apenas valores não-numéricos (palavras, sinais, ou números que não representam quantidades). Será dicotômica se seu domínio conter apenas dois valores, será politômica se o seu domínio conter mais de dois valores. No exemplo que estudamos, a variável idade é quantitativa discreta. Pode assumir os valores 16, 17, 18, ... , 70. A variável estatura é quantitativa contínua, podendo assumir qualquer valor entre 1,00m e 2,30m: 1,01m, 1,02m, 1,03m, ... , 2,29m, 2,30m. A variável sexo é qualitativa (ou nominal) dicotômica, podendo assumir os valores “masculino” ou “feminino” . O curso em que o aluno está matriculado é uma variável qualitativa politômica, que pode assumir os valores “Engenharia”, “Medicina”, “Direito”, “Enfermagem”, etc.
Classificação quanto a natureza Algumas vezes uma mesma característica do Universo pode ser estudada por mais de uma variável. Por exemplo, a classificação econômica dos moradores de um bairro: pesA. F. Beraldo
23
1. Introdução à Estatística
quisando por domicílio, podemos simplesmente perguntar qual é o rendimento familiar mensal dos moradores do domicílio; podemos estimar esta renda perguntando o valor da conta de energia elétrica; podemos perguntar quais e quantos eletrodomésticos existem no domicílio, e a escolaridade dos moradores..., enfim, existem várias formas de conseguir dados sobre esta característica, cada um deles apurado através de uma variável. As variáveis são também tipificadas segundo sua Natureza, ou Nível de Mensuração. Esta é uma categorização muito útil na descrição de amostras, mas requer um estudo mais apurado, quando precisamos decidir qual tipo de variável é mais adequado (e qual variável é a mais adequada) para descrevermos determinada característica de um Universo19 . Variável nominal: O nível mais baixo de informação é o das variáveis nominais dicotômicas que, como vimos, podem assumir apenas dois valores, opostos e complementares: sim ou não, ligado ou desligado, defeituoso ou não defeituoso. Em seguida, temos as variáveis nominais politômicas, que podem assumir mais de dois valores. Por exemplo, estado civil: solteiro, casado, união estável, separado, divorciado, viúvo, outros. Variável nominal ordinal: É uma variável nominal politômica cujos valores podem ser colocados em ordem de intensidade (ou de freqüência, ou de gravidade, entre outras qualificações). Por exemplo, as respostas à questão:
Em relação à reserva de vagas nas universidades federais (política de cotas), você: Discorda totalmente; Discorda; Não sei avaliar; Concorda; Concorda totalmente.
Variável intervalar: É uma variável quantitativa, em que os valores estão dispostos em uma escala, e os intervalos entre os pontos da escala são fixos e iguais. Por exemplo, 19
Esta é uma tarefa muito complexa. Uma boa parte do tempo de planejamento das pesquisas deve ser dedicada a este processo. Veja Apostila IV – Metologia de Pesquisa
24
A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
as escalas de temperatura, como a escala Celsius20 : 0◦ C corresponde ao “ponto do gelo” e 100◦ C que corresponde ao “ponto de ebulição” da água, medidos pela coluna de mercúrio de um termômetro. Estes dois pontos foram convencionados, e a distância entre eles foi dividida em cem partes, e variação da temperatura entre 10◦ C e 15◦ C é a mesma que ˙ entre 15◦ C e 20◦ COutro aspecto a considerar é que o valor de 0◦ C não significa que “não há” temperatura, e sim, que “a temperatura é de 0◦ C ”. É importante notar que um corpo a 60◦ C não é “duas vezes mais quente” que um corpo a 30◦ C. Temperatura é variável intervalar e “quente” (ou “frio”) é valor de uma variável nominal ordinal. Variável de razão: São as variáveis cujos valores são múltiplos ou submúltiplos de uma unidade convencionada, podendo haver uma correspondência linear (como no caso das variáveis estatura, peso, tempo, valores monetários) ou não-linear (exponencial ou logarítmica). No caso de uma variável de razão, o valor 0 (zero) corresponde a “ausência de”, e não uma convenção, como é o caso das variáveis intervalares. Em casos que a evolução dos valores é linear, como por exemplo, as medidas de comprimento (estatura, distância). A unidade é o metro, e, se dizemos que “o comprimento de uma sala de aula é de 8m”, estamos falando que “o comprimento da sala é de 8 x 1m” (oito vezes um metro). O mesmo vale para peso, tempo, volume, área, e outras. Há casos em que a correspondência não é linear, ou quando o intervalo entre dois pontos de uma escala não é fixo. Por exemplo, as escalas que utilizam logaritmos, como as escalas Richter21 – intensidade de terremotos, e a escala de decibéis – intensidade do som e do ruído. Dizer que um terremoto alcançou 4 graus na escala Richter não significa que sua intensidade foi duas vezes a de um terremoto de “grau 2”, e sim, a 100 vezes a de um terremoto grau 2. No caso da escala de ruídos, a intensidade do ruído é medida em decibéis (dB), sendo que a variação de 1 dB corresponde a uma variação de 10 vezes na potência do som ou do ruído.
20
Anders Celsius (1701-1744), astrônomo e cientista sueco. Curiosamente, quando foi inventada, a escala Celsius era “ao contrário”: 0◦ C correspondia ao “ponto de ebulição” e 100◦ C ao “ponto do gelo” da água. Depois de sua morte, a escala passou a ter o sentido e direção atual. 21 Charles Richter (1905-1985) e Beno Gutenberg, do California Institute of Technology, propuseram em 1935 a escala de medida sismográfica que, no começo, tinha a finalidade de medir unicamente os terremotos que se produziram na Califórnia (EUA). A escala Richter corresponde ao logaritmo da amplitude das ondas a 100 km do epicentro. Era graduada de 1 a 9, mas, depois de tremores que ultrapassam o grau 9, é, uma “escala aberta” (sem limite superior).
A. F. Beraldo
25
1. Introdução à Estatística
Exemplo 1.1. Propaganda de carro: destacamos as variáveis:
Figura 1.19: Características de um automóvel Notar que as variáveis dados de razão sempre se referem a uma base: o melhor exemplo está no preço do carro, fornecido tanto em reais quanto em dólares. Comentários: 1. Discretas ou Contínuas? Notar que as variáveis numéricas discretas podem ser tratadas como se fossem contínuas. Um dos problemas que são resolvidos pela Estatística, como foi dito, é o de efetuar contagens em conjuntos muito grandes. Mesmo para estes conjuntos (o número de analfabetos no país, por exemplo), o resultado desta contagem pode ser calculado com uma precisão razoável, usando um método estatístico chamado Estimação. Sem entrar em detalhes, neste momento, podemos dizer que estimar uma quantidade é calcular um intervalo numérico em que o valor mais provável de uma medida esteja nele contido. Note que escrevemos “intervalo numérico”, ou seja, a grosso modo, “entre dois números”. Diz-se que uma pessoa tem entre 120.000 a 140.000 fios de cabelo, isto é, ela tem entre 120 mil e 140 mil fios de cabelo. Este resultado é obtido assim: divide-se a área total do couro cabeludo do cidadão em quadradinhos de área igual, digamos, 1 cm2 de área. Para simplificar, vamos supor que o couro cabeludo contenha 1.000 quadradinhos. Sorteia-se uma série de quadradinhos, digamos, uns trinta quadradinhos. Em cada quadradinho sorteado conta-se o número de fios de cabelo, e calcula-se a média de “fios de cabelo por quadradinho”. Calcula-se também outra estatística, chamada desvio padrão, que é, por assim 26
A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
dizer, a “faixa de variação” da média. Se a média foi de 290 fios de cabelo por quadradinho, e o desvio padrão de 50 fios de cabelo por quadradinho, dizemos que o número de “fios de cabelo, por quadradinho”, está entre 240 e 340. Como são 1.000 quadradinhos, dizemos que a pessoa possui entre 240.000 e 340.000 fios de cabelo. Note que “número de fios de cabelo” é, a priori, uma variável numérica discreta. Quando seu valor se torna muito grande, dá-se a ela um tratamento de variável numérica contínua. 2. Variáveis Categóricas Dicotômicas: este tipo de variável também é muito utilizado pela Estatística. Dissemos que ela pode assumir os valores S e N (sim e não). Estendendo o raciocínio, podemos dizer que esta variável pode assumir dois valores, opostos e complementares, e que são mutuamente excludentes, ou seja: a variável possui dois estados, que não podem ocorrer simultaneamente. Por exemplo: “cara” ou “coroa”, no lançamento de uma moeda; “masculino” ou “feminino”, no nascimento de uma criança; “ligado” ou “desligado”, para um aparelho elétrico. Notar que muitas vezes atribui-se um valor “numérico” aos estados da variável, como, por exemplo, 1 para “ligado” e 0 para “desligado”. Deve-se prestar atenção a este caso, porque, apesar de termos valores numéricos, estes apenas simbolizam os estados da variável, que deve continuar sendo entendida e tratada como variável categórica, e não como variável numérica. 3. Por outro lado, podemos substituir as categorias de uma variável qualitativa por números, se esta variável qualitativa possui um caráter hierárquico ou ordinal, ou mesmo de graduação em nível ou intensidade. Por exemplo, em uma pesquisa de opinião pública a respeito do presidente da república, as respostas possíveis são: “ótimo”, “bom”, “regular”, “ruim” ou “péssimo” (variáveis qualitativas). Devido ao alto grau de subjetividade nesta conceituação, pode-se substituir a pergunta da pesquisa por outra: “Qual nota, numa escala de 0 a 10, você daria ao Presidente da República?”. Com este procedimento, tenta-se tornar a pesquisa mais objetiva, com a utilização de variáveis quantitativas. O inverso pode também ser utilizado: as famílias de um bairro podem ter uma classificação sócio-econômica A, B, C, D ou E (variável qualitativa) conforme sua renda familiar (variável quantitativa). 4. Muitas vezes você encontrará variáveis qualitativas identificadas por números. Por exemplo, em um questionário acerca do estado civil de um elemento amostral, pode-se identificar “solteiro” por “01”, “casado” por “02”, “divorciado” por “03”, etc. É preciso não confundir este valores, digamos, pseudo-numéricos, com valores de uma variável quantitativa. Estado civil é uma variável qualitativa e deve ter o tratamento correspondente, adequado. Outro exemplo: no seu número de matrícula, consta, digamos, o dígito “04” - que corresponde ao curso no qual você A. F. Beraldo
27
1. Introdução à Estatística
está matriculado. Apesar de ser um número, estes dígitos representam variáveis qualitativas. 5. Atributos e Variáveis: Tempos atrás, fazia uma distinção entre atributos e variáveis. Atributo era uma espécie de característica do elemento amostral que “pouco ou nada variava”, como sexo, naturalidade, data de nascimento, e outras. Já a variável seria uma característica que se alterava mais frequentemente.
Variáveis latentes Até agora, falamos apenas de variáveis objetivas, como peso, estatura, sexo, classe econômica. São variáveis cujos valores podem ser diretamente apurados, seja por questionários e entrevistas, seja pela observação dos coletores de dados, seja por instrumentos apropriados de medição. Existe, no entanto, um outro extenso grupo de variáveis que não são passíveis de serem medidas direta e objetivamente, mas cujos valores (ou “estados”) são estimados - são as chamadas variáveis latentes, muito comuns em Psicologia, Ciências Sociais, Educação, Economia e Administração. Alguns exemplos: Qualidade de Vida, Satisfação do Consumidor, Nível de Participação Política, Nível de Aprendizagem, Inteligência, Aptidão Física... Por exemplo, como medir algo que convencionamos chamar de Qualidade de Vida? Deve-se, primeiro, definir o quê seja “Qualidade Vida”, e de quem: da população em geral, dos jovens, das mulheres, dos deficientes físicos? O que seria Aptidão Física? A definição do significado de uma variável latente é feita a partir de estudos teóricos, muitas vezes acompanhados de pesquisas qualitativas. Esta definição é chamada de constructo, e procura desmembrar a variável latente em uma série de variáveis cujos valores podem ser obtidos de forma direta. Veja o exemplo 1.2 a seguir: Exemplo 1.2. Uma pesquisa dos alunos do curso de Ciências Sociais procurou medir o Nível de Satisfação dos moradores do Bairro Alfa. “Nível de Satisfação” é uma variável latente, como foi dito, e não pode ser medida direta e objetivamente. A equipe resolveu, então, elaborar um constructo em que a variável Qualidade de Vida foi segmentada nos fatores Saúde, Educação, Segurança, Transporte, Lazer, Comércio, e Vizinhança, cuja avaliação foi feita pelos respondentes a um questionário aplicado a 600 moradores do bairro. Por exemplo, o fator Saúde foi medida pela avaliação feita pelos respondentes, em questões como:
28
A. F. Beraldo
1.2 Atributos e Variáveis: a Natureza dos dados Estatísticos
Em relação ao atendimento do Posto de Saúde, você está: Totalmente Insatisfeito Insatisfeito NSA – Não Sei Avaliar Satisfeito Totalmente Satisfeito
As respostas eram pontuadas de 1 a 5. A pontuação de cada fator foi a soma das pontuações das questões a ele relativas. A menor pontuação de um fator, por respondente, era 5, a maior, 25 pontos. Foi utilizada a mediana como medida de tendência central22 de cada fator. Adicionalmente, adotou-se o seguinte critério: • Entre 5 e 10 pontos – Fator mal avaliado • Entre 11 e 18 pontos – Fator avaliado como “regular” • Entre 19 e 25 pontos – Fator bem avaliado Veja um dos resultados da pesquisa no gráfico a seguir. Avalie cada fator segundo o critério dado.
Figura 1.20: Resultados da pesquisa (dados fictícios) 22
A mediana e demais medidas de tendência central são estudadas no próximo capítulo.
A. F. Beraldo
29
2 Medidas Estatísticas de Tendência Central Medidas de Tendência Central procuram caracterizar um conjunto de n dados numéricos por apenas um valor. Esta parece ser uma tendência natural das pessoas: quando se têm uma série de valores procura-se um valor “médio”, pelo qual se identifica o conjunto. É muito comum se ouvirem frases do tipo “os aluguéis estão em torno de R$ 250,00”, ou “são meninos na faixa de 12 anos”, ou ainda “o jogador faz cerca de 2 gols por partida”. Expressões como “em torno”, “cerca de”, “na faixa de”, ou ainda “em média”, traduzem esta tentativa de adotar-se um valor único para identificar um conjunto de valores A Estatística possui um conjunto de Medidas de Tendência Central que, conforme o caso, fornecem este valor único, característico dos dados existentes na amostra. Tenha em mente que estamos tratando apenas de variáveis quantitativas. Variáveis qualitativas serão abordadas em outra parte desta Apostila. As Medidas de Tendência Central que estudaremos nesta parte serão a média, a moda, a mediana e o ponto médio. Existem outras estatísticas de tendência central que serão citadas, quando necessário.
2.1 2.1.1
Média Média Aritmética
Definição: A média, ou média aritmética, de um conjunto de n valores numéricos é definida como a razão entre a soma destes valores e o tamanho do conjunto.
Seja um conjunto A de n valores numéricos, descrito como
A = {x1 , x2 , x3 , · · · , xn }
Define-se sua média aritmética, ou simplesmente, média, notada por X A. F. Beraldo
31
2. Medidas Estatísticas de Tendência Central
P
X=
xi n
(2.1)
Onde: X é a média aritmética do conjunto, n é o tamanho (número de elementos) do conjunto. Exemplo 1.1 Seja o conjunto A = {1, 2, 4, 8, 0, 3}. Sua média será: P
X=
xi 1+2+4+8+0+3 18 = = = 3, 0 n 6 6
Note que o elemento 0 “entra” na conta, no somatório de xi . Exemplo 1.2 Seja o conjunto B = {8, −2, 5, 6, −4, 2, 2, −1}. Sua média será:
8−2+5+6−4+2+2−1 16 xi = = = 2, 0 n 8 8
P
X=
Note que elementos com sinal negativo mantêm o sinal, no somatório. Exemplo 1.3: Seja o conjunto C = {1, 2, 4, 3, 2, 2, 2, 3, 2, 1, 2}. Sua média será:
P
X=
xi 1+2+4+3+2+2+2+3+2+1+2 24 = = = 2, 18 n 11 11
Note que a média pode ser fracionária, ou seja, pode assumir um valor que, à primeira vista, pode parecer absurdo, como é o caso de “1,3 filhos por casal”, ou “0,96 gols por partida”. Comentários 1. Note que “média” é um termo técnico, matemático. Devemos diferenciar o conceito que temos, no cotidiano, da palavra “média”. Quando dizemos que uma pessoa possui estatura média, na linguagem do dia-a-dia, não-técnica, queremos dizer que ela não é alta nem baixa. Quando dizemos que um aluno “está na média”, queremos dizer que suas notas situam-se em torno de uma “nota média”, adotada 32
A. F. Beraldo
2.1 Média
pela escola ou pelo curso que frequenta. Isto é bem diferente do conceito que acabamos de estudar. 2. A média de um conjunto nem sempre poderá ser adotada como valor característico deste conjunto. Conjuntos muito irregulares (com valores extremos) também possuem média, mas esta pode não caracterizar o conjunto. Por exemplo, se numa prova aplicada a uma turma de alunos a metade dos alunos tirou nota 3 e a outra metade tirou nota 7, a média será 5. No entanto: a Nenhum aluno tirou nota 5; b Se você disser “esta é uma turma nota 5”, estará superestimando metade da turma (a que tirou nota 3) e subestimando a outra metade (a que tirou nota 7).
2.1.2
Média Aritmética Ponderada
A média aritmética ponderada é aplicável quando um conjunto de valores possui elementos que se repetem. Por exemplo, o conjunto A:
A = {1, 1, 5, 5, 5, 6, 6} No conjunto acima, o elemento 1 repete-se duas vezes, o elemento 5 repete-se três vezes e o elemento 6 repete-se duas vezes. Diz-se, então, que o elemento 1 tem peso 2 (duas repetições), o elemento 5 tem peso 3 e o elemento 6 tem peso 2. Ao calcularmos a média do conjunto teríamos:
P
1+1+5+5+5+6+6 29 xi = = = 4, 14 n 7 7
X=
Podemos simplificar as operações, fazendo
xi (1 × 2) + (5 × 3) + (6 × 2) 29 = = = 4, 14 n 7 7
P
X=
Ao invés de somar 1 + 1, preferimos fazer 1 × 2; ao invés de somar 5 + 5 + 5, calculamos 5 ×3 . O mesmo com 6 + 6 substituído por 6 × 2. O resultado é o mesmo, mas o número de operações ficou reduzido - é mais prático calcular assim. No exemplo acima o conjunto é pequeno (7 elementos). Em conjuntos maiores, a praticidade de A. F. Beraldo
33
2. Medidas Estatísticas de Tendência Central
utilizar-se a multiplicação dos elementos por seus pesos fica bem mais evidente. De uma forma geral, introduzimos a média aritmética ponderada X P , dada por: Pj=k
xj p j X P = Pj=1 j=k j=1 pj
(2.2)
onde xj são os elementos repetidos do conjunto, e pj são os pesos(número de vezes em que os elementos ocorrem no conjunto). Veja o exemplo a seguir: Seja A = {4, 4, 4, 5, 5, 7, 7, 7, 7, 3, 3, 2, 2, 2, 2, 2, 6} . Calculando a média de A, optamos por utilizar a média ponderada:
P
XP =
xi × p i (4 × 3) + (5 × 2) + (7 × 4) + (3 × 2) + (2 × 5) + (6 × 1) = 3+2+4+2+5+1 pi 72 = = 4, 24 17
P
Nota: as propriedades da média aritmética se aplicam igualmente à média aritmética ponderada.
2.1.3
Média Geométrica
Seja um conjunto A de n valores numéricos, descrito como:
A = {x1 , x2 , x3 , · · · , xn } Define-se a sua média geométrica como:
XG =
√ n
x1 x2 x3 · · · xn
(2.3)
ou seja, a média geométrica do conjunto, X G ,é a raiz n-ésima do produtório dos elementos xi do conjunto. Por exemplo: seja o conjunto A = {1, 4, 5, 6, 3}. Sua média geométrica é dada por 34
A. F. Beraldo
2.1 Média
XG =
√ √ √ 5 n x1 .x2 .x3 . · · · .xn = 5 1 × 4 × 5 × 6 × 3 = 360 = 3, 245
Lembre-se que: 1. No conjunto dos Reais,
R, não existe raiz par de número negativo.
2. Se você estiver utilizando calculadoras que possuem a função xy , a expressão acima para o cálculo da média geométrica pode ser reescrita como: 1
X G = (x1 × x2 × x3 × · · · × xn ) n
3. Se você estiver utilizando logaritmos, a expressão do cálculo da média geométrica passa a ser: log X G =
2.1.4
1 log x1 + log x2 + log x3 + ... + log xn n
Média Harmônica
Seja um conjunto A de n valores numéricos, descrito como A = {x1 , x2 , x3 , · · · , xn }
Define-se sua média harmônica como: n X H = Pi=n
1 i=1 xi
A. F. Beraldo
(2.4)
35
2. Medidas Estatísticas de Tendência Central
Por exemplo, seja o conjunto A = {3, 4, 6, 2}. Sua média harmônica X H é dada por n XH = P 1 = xi
1 3
4 + + 16 + 1 4
1 2
=
4 15 12
= 3, 20
Nota: Como você deve ter notado, ao analisar a fórmula de cálculo da média harmônica, esta não existe no campo real se: 1. Existir pelo menos um elemento do conjunto igual a zero. 2. O somatório
P 1 xi
for igual a zero.
Nota: A partir deste ponto, iremos utilizar a notação X para as médias aritméticas Simples e Ponderadas, X G para a média geométrica e X H para a média harmônica. Comentários 1. Aplicação das Médias Geométrica e Harmônica: A média geométrica deve ser utilizada quando os valores do conjunto estão colocados em alguma forma de progressão geométrica ou quando os valores mostram a evolução exponencial de uma grandeza. É muito utilizada quando os valores da amostra são números índices. A média geométrica é aplicada, por exemplo, no cálculo das médias de taxas: de inflação, de preços, de juros, de evolução de índices econômicos, etc. É bastante utilizada, também, em Demografia e em Epidemiologia. A média harmônica é aplicada em taxas ou coeficientes por quantidades fixas, como, por exemplo, nos índices utilizados em saúde pública: óbitos por 10.000 habitantes, incidência de uma doença por 1.000 habitantes, etc. 2. Se um conjunto possui apenas valores positivos, temos sempre a seguinte relação: X ≥ XG ≥ XH Os casos de igualdade entre as médias referem-se a conjuntos com valores iguais. Para exemplificar esta relação, utilizamos o conjunto formado pelos números 1, 2, 4.
36
A. F. Beraldo
2.1 Média
Sua média aritmética é dada por: P
X=
xi 1+2+4 = = 2, 3 n 3
A média geométrica é dada por: XG =
√ 3
1×2×4=
√ 3
8=2
A média harmônica é dada por: XH =
3 3 3 = 1, 71 = = 1, 75 1 1 1 4+2+1 + + 1 2 4 4
3. Você pode ver que as médias Harmônicas e Geométricas não são tão afetadas pela existência de valores extremos no conjunto. 4. As médias aritméticas são diretamente afetadas pelos próprios valores do conjunto. Lembre-se que a média aritmética é o resultado de uma operação matemática que envolve tanto o número de elementos do conjunto (denominador) quanto o somatório destes valores (numerador). 5. Vantagens do uso da média: • A média é a Estatística de Tendência Central de mais fácil compreensão. É utilizada de forma generalizada, na Estatística Descritiva e na Inferencial; • A média sempre pode ser calculada em conjuntos numéricos; • Pode ser tratada algebricamente. Por exemplo, se um conjunto muito grande de valores é subdividido, as médias dos subconjuntos podem ser combinadas, para fornecer a média do conjunto original. 6. Desvantagens do uso da média: • Como seu valor pode ser distorcido pela presença de elementos extremos no conjunto, há de se fazer uma verificação na distribuição destes valores, para julgar se a média é boa ou ruim para caracterizar o conjunto.
A. F. Beraldo
37
2. Medidas Estatísticas de Tendência Central
2.1.5
Propriedades da Média Aritmética
Propriedade I Seja um conjunto A, de valores numéricos, definido como A = {x1 , x2 , x3 , · · · , xn } = {xi }n , e com média X A . Seja um conjunto B, definido como B = {x1 + k, x2 + k, x3 + k, · · · , xn + k} = {xi + k}n , (sendo k uma constante) e com média X B . A média X B será igual a X A + k. Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores de um conjunto, a nova média será a média do conjunto original somada (ou diminuída) a esta constante K. Propriedade II Seja um conjunto A, de valores numéricos, definido como A = {x1 , x2 , x3 , · · · , xn } = {xi }n , e com média X A . Seja um conjunto B, definido como A = {x1 · k, x2 · k, x3 · k, · · · , xn · k} = {xi · k}n , e com média X B . (sendo k uma constante diferente de zero) A média X B será igual a X A × k. Propriedade III Seja um conjunto A, de valores numéricos, definido como A = {x1 , x2 , x3 , · · · , xn } = {xi }n , e com média X A . Sejas as diferenças (ou desvios) di = xi − X A (diferença entre cada elemento do conjunto em relação à média). Temos que: i=n X
di = 0
i=1
Ou seja, a soma algébrica dos valores das diferenças dos elementos em relação à média do conjunto é sempre nula.
38
A. F. Beraldo
2.2 Moda
Propriedade IV Seja um conjunto A, de valores numéricos, definido como A = {x1 , x2 , x3 , · · · , xn } = {xi }n , e com média X A . Sejam as diferenças (ou desvios) di = xi − V (diferença de cada elemento do conjunto em relação a um valor V qualquer. Temos que
2.2
Pi=n 2 d i=1
i
é um mínimo quando V = X A
Moda
Definição: A moda de um conjunto de valores numéricos é o valor de maior frequência dentro do conjunto.
Assim, um conjunto pode possuir uma moda apenas, ou pode possuir mais de uma moda, ou pode não possuir moda. Para que um conjunto possua moda, é necessário que: 1. Existam valores repetidos no conjunto; 2. No conjunto, existam um ou mais valores que se repitam mais vezes do que os demais. c A moda é notada X. por frequência modal fk .
A frequência da moda, ou das modas, é chamada
c Exemplo: Seja o conjunto A = {1, 3, 4, 5, 5, 8, 5}. Sua moda X = 5, a frequência modal fk = 3 (o elemento 5 repete-se mais do que os demais, e repete-se 3 vezes). c=5 e X c = 4, e Exemplo: Seja o conjunto B = {1, 3, 4, 5, 5, 8, 4}. Suas modas são X frequência modal fk = 2 (os elementos 5 e 4 repetem-se mais do que os demais, sendo 2 vezes cada).
Exemplo: Seja o conjunto C = {1, 1, 4, 5, 5, 4}. Este conjunto não possui moda. Apesar de haver repetição de valores, nenhum valor do conjunto repete-se mais vezes que os demais. Exemplo: Seja o conjunto D = {1, 1, 1, 1, 1, 1}. Este conjunto não possui moda. Apesar de haver repetição do valor 1, nenhum valor do conjunto repete-se mais do que os demais. Apesar disto, é óbvio que o valor 1 é o valor característico do conjunto. A. F. Beraldo
39
2. Medidas Estatísticas de Tendência Central
Comentários
1. A moda não é muito considerada pelos estatísticos uma vez que ela pode não ocorrer ou, o que é pior, pode existir mais de uma moda na amostra. Desta forma, ficaríamos em dúvida de qual dos valores da moda usar - lembre-se que uma medida de tendência central tem que ser um valor único. 2. Muitos alunos tendem a procurar “sub-modas” na distribuição, quando há elementos com frequência próxima à frequência modal. Isto não é correto. A moda terá a maior frequência dentro do conjunto. 3. Outro erro muito comum é, quando a distribuição possui duas modas, inventar-se uma “moda média”, que seria o valor médio entre as modas. Esta “moda média” não existe. 4. Mesmo que a moda possa não ser utilizada como Medida de Tendência Central (no caso de duas ou mais modas, por exemplo), ela não perde sua utilidade. As modas fornecem indícios que existem vários pontos de concentração na amostra, o que pode caracterizar um conjunto formado por vários subconjuntos - e é assim que a amostra deve ser analisada. 5. A moda é diretamente afetada pelo número de repetições dos elementos do conjunto. 6. Vantagens da moda: a Quando a frequência modal é alta (por exemplo, 50% do conjunto), a moda passa a ser o valor “típico” do conjunto; b A moda não é afetada por valores extremos do conjunto; c Ao contrário da média, se um conjunto possui moda(s), esta(s) pertence(m) necessariamente ao conjunto. 7. Desvantagens da moda a A moda pode não existir; b O conjunto pode ser bimodal ou polimodal c A frequência modal é muito baixa (poucas repetições), o que torna a moda não característica do conjunto. 40
A. F. Beraldo
2.3 Mediana
2.3
Mediana
Definição: A mediana é o valor central de um conjunto ordenado.
f A mediana é notada por X.
Seja o conjunto A = {1, 4, 6, 3, 9}. Para calcular sua mediana, temos que ordenar o conjunto (vide definição acima). Ordenado, o conjunto passa a ser:
A0 = {1, 3, 4, 6, 9} O valor central (no “meio” do conjunto) é o elemento 4. Portanto, a mediana deste f = 4. conjunto é X Em conjuntos pequenos, de tamanho ímpar, é fácil determinar a mediana. Se o conjunto possui n elementos e n é ímpar, a mediana ocupa a posição central (n + 1)/2. No exemplo acima, como o conjunto possui 5 elementos, a mediana está na 3a posição, pois (5 + 1)/2 = 3.
Figura 2.1: Conjunto de tamanho ímpar No entanto, em conjuntos pequenos, de tamanho par, temos duas posições centrais:
Figura 2.2: Conjunto de tamanho par
A. F. Beraldo
41
2. Medidas Estatísticas de Tendência Central
Neste caso, a mediana será a média dos dois valores centrais. Por exemplo, seja o conjunto B = {1, 0, 3, 5, 4, 9, 2, 1}. O conjunto ordenado será:
B 0 = {0, 1, 1, 2, 3, 4, 5, 9} f = (2 + 3)/2 = Os valores centrais são 2 e 3. Portanto, a mediana deste conjunto é X
2, 5 Comentários 1. A mediana é considerada a Medida de Tendência Central mais robusta, uma vez que não sofre a desvantagem da média de se alterar devido à presença de valores extremos. 2. Como se vê, o valor da mediana depende apenas de sua posição. Logicamente, se o tamanho do conjunto é alterado, a mediana pode deslocar-se para cima ou para baixo. 3. Vantagens da mediana: a A mediana, por ser independente dos valores do conjunto, pode ser calculada mesmo para conjuntos abertos; b Sua robustez. 4. Desvantagens da mediana: a A mediana não é característica do conjunto se a distribuição de valores for bimodal ou polimodal (áreas de concentração diferentes); b Se um conjunto for de tamanho par, a mediana terá que ser “inventada”, em uma posição arbitrada 1 .
1
Não consideremos isto uma desvantagem. Mesmo que a mediana não pertença ao conjunto, sua finalidade como medida de tendência central ou de posição não se perde. Sempre saberemos que 50% dos valores do conjunto estão abaixo da mediana, e 50% acima dela. É isso que importa.
42
A. F. Beraldo
2.4 Ponto Médio
2.4
Ponto Médio
Definição: O ponto médio de um conjunto é a média entre o maior valor e o menor valor do conjunto.
O ponto médio é notado por x . A expressão de cálculo é
x=
Maior valor + Menor valor 2
(2.5)
Por exemplo, seja o conjunto A = {3, 8, 1, 9, 4}. Seu ponto médio, x, é dado por
x=
A. F. Beraldo
9+1 10 Maior valor + Menor valor = = = 5, 0 2 2 2
43
3
Medidas Estatísticas de Dispersão
Até aqui estudamos as Medidas de Tendência Central. Procuramos um valor único que represente todo um conjunto numérico. Com a determinação deste valor, seja ele a média, a moda ou a mediana, aumentamos ainda mais o nível de conhecimento que possuímos sobre a amostra. Prosseguindo nosso estudo; vamos adotar a Média como Medida de Tendência Central (por mais imperfeita que possa ser esta medida), e verificar como os demais elementos do conjunto se dispõem em torno da média. Na prática, podemos obter amostras regulares, com a maioria de seus elementos concentrados em torno da média, ou irregulares, com valores dispersos, distantes da média. Alguns conjuntos são extremamente regulares, como as medidas de peças fabricadas em série, em indústrias com um bom controle de qualidade. Outros, ao contrário, são bastante heterogêneos como, por exemplo, as idades dos habitantes de uma cidade - temos desde recém-nascidos até pessoas de idade bem avançada.
Figura 3.1: Conjunto A No conjunto A, os elementos da amostra se concentram de maneira quase uniforme, em torno da região central (em cinza). Existem alguns elementos, inclusive, dentro da área cinzenta. Se imaginarmos que esta área cinzenta representa a Medida de Tendência Central (no caso, a média), teremos um conjunto de pouca dispersão em torno da média.
A. F. Beraldo
45
3. Medidas Estatísticas de Dispersão
Figura 3.2: Conjunto B Ao contrário, no conjunto B, os elementos da amostra se afastam da região central, estando dispersos por todas as regiões da amostra. Uns poucos elementos se encontram próximos a esta região central; o restante dos elementos da amostra se distribui irregularmente. Comparando as duas ilustrações, formamos um conceito, ainda que visual, de uma grandeza chamada dispersão.
3.1
Amplitude
Amplitude (R) é simplesmente a distância entre o maior valor e o menor valor de um conjunto de dados. Por exemplo, a Amplitude do conjunto A = {1, 3, 5, 5, 5, 8} é igual a R = 8 − 1 = 7. Outra forma de mostrar a Amplitude de um conjunto é a que utiliza a notação da teoria dos conjuntos: [a, b] significando um intervalo fechado, sendo a o menor valor e b o maior valor. Para o exemplo acima, teremos R = [1, 8].
46
A. F. Beraldo
3.2 Desvios e Desvio Médio
3.2
Desvios e Desvio Médio
O nosso problema, agora que já temos uma ideia visual do que seja concentração ou dispersão, é quantificar esta dispersão em torno da média. Na ilustração ao lado, mostramos uma tentativa de quantificação desta grandeza. Medimos a distância entre cada elemento da amostra e a média do conjunto. Esta distância é chamada de desvio de um elemento, que notaremos por di . Assim, cada elemento da amostra poderá ter seu desvio calculado em relação à média. É uma medida ainda bem primitiva, mas já é um começo.
Figura 3.3: Desvios Exemplificando, seja o conjunto A = {0, 3, 2, 7, 8, 4}. A média deste conjunto é P
X=
0+3+2+7+8+4 24 xi = = = 4, 0 n 6 6
Os desvios dos elementos são calculados pela fórmula:
di = xi − X
A. F. Beraldo
(3.1)
47
3. Medidas Estatísticas de Dispersão
Onde di é o desvio de um elemento xi e X é a média do conjunto. Calculando os desvios dos elementos do conjunto, temos: Tabela 3.1: Desvios dos elementos do conjunto xi 0 3 2 7 8 4 Σ
di 0 − 4 = −4 −1 −2 +3 +4 0 0
Note que temos desvios negativos, positivos e nulos. Desvios negativos ocorrem quando os elementos são menores que a média; desvios positivos acontecem quando os elementos são maiores do que a média; desvios nulos ocorrem quando os elementos são coincidentes com a média. Assim, podemos ter:
di > 0
o que indica que
xi > X , ou que o elemento xi está acima da média X
di = 0
o que indica que
xi = X , ou que o elemento xi coincide com a média X
di < 0
o que indica que
xi < X, ou que o elemento xi está abaixo da média X
Repare, também, que a soma algébrica dos desvios em relação à média é igual a zero. Esta é uma das propriedades da média, que já foi estudada, e é uma maneira de conferirmos se nossas contas estão certas. Já temos uma ideia dos desvios dos elementos (ou de cada elemento), dentro do conjunto. Ainda assim, é pouco. Queremos ter uma ideia geral de como está a dispersão, como um todo, dentro da amostra. Uma ideia inicial é calcular a média dos desvios, ou desvio médio. Uma fórmula para o desvio médio seria Pi=n
d=
| di | n
i=1
(3.2)
A introdução da operação módulo | di | se faz necessária porque a soma algébrica dos desvios é sempre igual a zero. Se assim não o fizéssemos, teríamos sempre d = 0 48
A. F. Beraldo
3.3 Variância e Desvio Padrão
Utilizando a tabela 3.2 para calcular o desvio médio, temos: Tabela 3.2: Cálculo do desvio médio xi 0 3 2 7 8 4 Σ
di -4 -1 -2 +3 +4 0 0
|d| 4 1 2 3 4 0 14
Pi=n
d=
| di | 14 = = ±2, 33 n 6
i=1
O que quer dizer este valor? Este desvio médio, de ±2, 33, indica que os elementos da amostra se desviam, em média, de 2, 33 unidades (acima e abaixo da média). Este desvio é em relação à média, lembre-se que pode ser tanto positivo quanto negativo. Este é um valor médio, ou seja, sofre de todas as imperfeições desta medida: fortemente afetada por valores extremos, não se aplica a conjuntos muito irregulares, etc. Estas desvantagens, de certa forma, distorcem aquilo que seria uma boa medida da grandeza dispersão. É necessário, então, melhorar a forma de medir a dispersão dos elementos da amostra em torno da média. Existem alguns procedimentos matemáticos adotados pela Estatística, dentre os quais o mais utilizado é o cálculo de uma estatística chamada desvio padrão.
3.3
Variância e Desvio Padrão
O desvio padrão foi adotado pela Estatística para refletir, de maneira mais realista, mais robusta1 e mais precisa a grandeza dispersão nas amostras. O desvio padrão é o resultado de uma operação matemática chamada raiz média quadrática dos desvios. De uma forma mais prática, para calcular o desvio padrão é melhor calcular antes, outra estatística chamada variância. Por enquanto, não se preocupe com o que significa a variância, mas saiba que é uma estatística muito importante, intensamente utilizada em análises mais avançadas em Estatística.
Definição: A variância é a média dos quadrados dos desvios em relação à média. 1
Você se lembra do que é robustez, em Estatística?
A. F. Beraldo
49
3. Medidas Estatísticas de Dispersão
A variância é notada por s2 (a letra “s”, minúscula, elevada ao quadrado). A fórmula da variância é a seguinte:
2
s =
Pi=n 2 d i=1
i
(3.3)
n−1
O desvio padrão é a raiz quadrada da variância. Sua fórmula, portanto, é: √ s=
s2
(3.4)
Seja o conjunto do exemplo anterior, A = {0, 3, 2, 7, 8, 4}. A média do conjunto, X = 4, e os desvios foram calculados, conforme a tabela 3.3. Tabela 3.3: Desvios dos elementos do conjunto xi 0 3 2 7 8 4 Σ
50
di −4 −1 −2 +3 +4 0 0
A. F. Beraldo
3.3 Variância e Desvio Padrão
Montamos mais uma coluna, à direita, para conter os valores dos quadrados dos desvios: Tabela 3.4: Cálculo dos quadrados dos desvios xi 0 3 2 7 8 4 Σ
d2 16 1 4 9 16 0 46
di −4 −1 −2 +3 +4 0 0
A variância, então, será:
2
s =
Pi=n 2 d i=1
n−1
i
=
46 = 9, 2 5
O desvio padrão será: √ s=
s2 =
√ 9, 2 = 3, 03
Comentários 1. A dispersão dos elementos de um conjunto é uma espécie de “propriedade” dos conjuntos, assim como as figuras geométricas planas possuem área, e as figuras em três dimensões possuem volume. 2. Leia novamente a Propriedade IV da média aritmética. É por consequência desta propriedade que utilizamos a variância. 3. Você deve estar perguntando: por que, afinal, não utilizamos a variância, apenas, sem mais esta medida do desvio padrão? A resposta é a seguinte: Suponha que estamos analisando as notas de uma turma, em que foram atribuídos “pontos” aos alunos, numa escala de 0 a 10. Então, podemos ter alunos com 0 ponto, 1, 2 ou 3 pontos, e assim por diante, até alunos com 10 pontos. Ao calcularmos a média das notas dos alunos, encontramos, por exemplo, o valor 6,8. Isto quer dizer que a média da turma é 6,8 pontos. A. F. Beraldo
51
3. Medidas Estatísticas de Dispersão
Ao calcularmos as Medidas de Dispersão, temos: desvios di calculados em pontos, desvio médio calculado em pontos, e a variância em pontos ao quadrado (!). Ora, esta unidade de medida, “pontos ao quadrado”, não existe! Para voltarmos à unidade original, temos que extrair a raiz quadrada da variância - que é justamente o desvio padrão, cuja unidade é pontos... Agora, estamos sossegados. 4. A maioria dos autores faz uma distinção entre o cálculo da variância e do desvio padrão referindo-se a amostras ou aos elementos do conjunto Universo (ou população). Adotam expressões de cálculo ligeiramente diferentes para s2 (variância de amostras) e para σ 2 (variância de populações)2 . As fórmulas são: Para amostras:
2
s =
P 2 d
n−1
(3.5)
Para populações:
2
σ =
P 2 d
N
(3.6)
Onde d2 é a expressão “quadrado do desvio”(di = xi − X), e n e N são, respectivamente, os tamanhos da amostra e da população, N >> n. O desvio padrão √ é calculado da mesma√forma, seja para amostras, seja para populações: s = s2 para amostras e σ = σ 2 para populações. Esta diferença não representa muito em termos de resultado, para n ou N superiores a 30. Daí que utilizaremos, nesta apostila, o denominador n − 1 para amostras de tamanho inferior a 30, e n, para amostras com tamanho maior ou igual a 30. Para populações, a mesma regra. Se aplicássemos a fórmula da variância com n, ao invés de n − 1 no denominador, os resultados seriam: s2 = 7, 67 e s = 2, 67. O erro cometido seria de 14%, para menos, no desvio padrão. Isto ocorreu porque o tamanho do conjunto é muito pequeno, 6 elementos apenas.
2
Os motivos técnicos para esta distinção serão discutidos na Apostila III, Amostragem, Inferência de Testes
52
A. F. Beraldo
3.4 Coeficiente de variação
Outra fórmula para o cálculo da variância pode ser deduzida da expressão que utilizamos. É a seguinte:
2
s =
Pi=n 2 d i=1
n
i
−X
2
(3.7)
Você pode utilizar qualquer uma das expressões, dependendo da sua comodidade.
3.4
Coeficiente de variação
O coeficiente de variação (CV) é a razão entre o desvio padrão e a média do conjunto. Sua fórmula, portanto, é
CV =
s X
(3.8)
No exemplo atual, calculamos a média X = 4, 0 e o desvio padrão S = 3, 03. O coeficiente de variação será dado por
CV =
s 3, 03 = = 0, 7575 4, 0 X
Nota: Na prática, expressamos o valor do CV em porcentagem. O CV calculado acima será, então, CV = 76%. Comentários 1. As Medidas de Dispersão que estudamos analisam a disposição dos elementos amostrais em relação à média. Nas amostras, os elementos podem estar distantes da média (dispersos), ou concentrados em torno desta Estatística (caso das amostras homogêneas), ou mesmo esta disposição pode ser irregular, com uma parte da amostra concentrada e a outra dispersa. Novamente temos que aprofundar a análise destas Estatísticas, assim como fizemos com as Medidas de Tendência Central. 2. A Amplitude fornece uma ideia preliminar de como está a dispersão, a grosso modo, na amostra. Se a variável estatura dos indivíduos é que está sendo medida, uma amostra A com Amplitude R(A) = [1, 68m, 1, 72m] deve ter, teoricamente, uma A. F. Beraldo
53
3. Medidas Estatísticas de Dispersão
dispersão de valores menor do que uma amostra B, com R(B) = [1, 60m, 1, 92m] - a “faixa de valores possíveis” em A é menor do que em B. Mas este é apenas o começo da nossa análise. 3. Os Desvios e o Desvio Médio, como vimos, são medidas um tanto imperfeitas. Mesmo assim, é conveniente dispor os desvios dos elementos em uma tabela - os desvios muito grandes em relação à média podem indicar a existência de “outliers"3 . Outlier, em Estatística, é o nome que se dá ao elemento ou elementos que se distanciam exageradamente da média, ou da regularidade do conjunto. A existência de outliers causa uma grande elevação das Medidas de Dispersão, como veremos a seguir. 4. Você deve ter em mente que só o estudo de muitos conjuntos e muitas distribuições de valores irá fornecer a você uma boa ideia do que é um desvio padrão “alto” ou “baixo”. Isto depende da variável em estudo. As peças de um motor fabricado em série, por exemplo, saem da linha de montagem com as medidas praticamente iguais, se a máquina estiver bem calibrada e lubrificada. Os desvios padrões das medidas “tendem” a zero, e só um exame muito minucioso irá apontar as diferenças (mínimas) existentes entre elas. Quanto maior a regularidade e qualidade dos processos de fabricação, menores serão os coeficientes de variação encontrados. A regulamentação dos padrões de qualidade, as normas ISO 9000 e outras, utilizam os desvios padrões e os escores padronizados para fixar os limites de tolerância das medidas dos produtos industriais. 5. Com outras variáveis, principalmente as adotadas nas áreas das Ciências Econômicas, Humanas e da Saúde, devemos estar preparados para encontrar desvios padrões tão altos que chegam a descaracterizar a média dos dados coletados. Mas a Estatística possui ferramentas que solucionam estes problemas. A Apostila III traz algumas destas ferramentas. 6. A variância, o desvio padrão e o coeficiente de variação são utilizados em todos os casos, para medir a dispersão em relação à média. No momento, não se preocupe com a variância - esta estatística é de extrema importância, e será objeto de estudos mais adiante. Mas neste ponto concentremo-nos no desvio padrão e no coeficiente de variação. Neste primeiro contato, normalmente o aluno não consegue visualizar o que seja (ou o que é medido) pelo desvio padrão. Vamos tentar esclarecer, através do exemplo seguinte: 3
Outlier é uma palavra da língua inglesa, pronuncia-se “áut-laiar”. Na linguagem comum, significa “alguém que não reside na cidade onde trabalha ou estuda, ou ocupa um cargo administrativo”. Também é empregue para significar “parte separada do todo”. Em Estatística, há um significado diferente: valor fora da “regularidade” do conjunto.
54
A. F. Beraldo
3.4 Coeficiente de variação
Exemplo 3.1. Imagine que estamos estudando a variável “peso”, expressa em quilos, de um conjunto de 17 pessoas. Este conjunto é o seguinte: A1 = {68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68} Então, todas as pessoas em A1 possuem 68 kg. A média do conjunto, assim como sua mediana, é igual a 68 kg. Como não há variação, o desvio padrão é igual a 0, e o coeficiente de variação é igual a 0%. O conjunto é absolutamente uniforme e regular. Vamos modificar o conjunto, alterando os 2 primeiros e os dois últimos elementos, montando o conjunto A2: A2 = {66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70} A média e a mediana continuam iguais a 68, e agora, a moda pode ser calculada, e é também igual a 68. O conjunto não é mais tão regular, dada a introdução de elementos iguais a 66 kg e 70 kg, que possuem desvios -2 kg e +2 kg, respectivamente. O desvio padrão, que reflete estas alterações, passa a ser de 1,00 kg. O CV passa a ser de 1,5 %.
Figura 3.4: Conjunto A1 e A2, respectivamente Alteramos ainda mais o conjunto original, e montamos o conjunto A3: A3 = {64, 64, 66, 66, 68, 68, 68, 68, 68, 68, 68, 68, 68, 70, 70, 72, 72} As Medidas de Tendência Central (média, moda e mediana) permanecem as mesmas: 68 kg. O desvio padrão e o coeficiente de variação crescem para 2,24 kg e 3,3%.
A. F. Beraldo
55
3. Medidas Estatísticas de Dispersão
Continuamos a alterar o conjunto inicial, montando os conjuntos A4, A5 e A6, conforme quadro a seguir: Tabela 3.5: Conjuntos A Elemento (i) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Média Moda Mediana Amplitude Desvio padrão Coef. de Variação
A1 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 68 Não há 68 0 0,00
A2 66 66 68 68 68 68 68 68 68 68 68 68 68 68 68 70 70 68 68 68 4 1,00
A3 64 64 66 66 68 68 68 68 68 68 68 68 68 70 70 72 72 68 68 68 8 2,24
A4 62 64 64 66 66 66 68 68 68 68 68 70 70 70 72 72 74 68 68 68 12 3,16
A5 60 62 64 66 66 66 68 68 68 68 68 70 70 70 72 74 76 68 68 68 16 4,00
A6 58 62 62 66 66 66 68 68 68 68 68 70 70 70 74 74 78 68 68 68 20 4,80
0,0%
1,5%
3,3%
4,7%
5,9%
7,1%
Repare que à medida em que vamos alterando os valores do conjunto, as Estatísticas de Tendência Central permanecem as mesmas, mas as Medidas de Dispersão aumentam de valor.
56
A. F. Beraldo
3.4 Coeficiente de variação
Representando graficamente estas alterações, percebemos como a regularidade do conjunto vai diminuindo a cada alteração:
Figura 3.5: Conjunto A4 Na Figura 3.5, conjunto A4, os elementos começam a se espalhar mais, o que aumenta as medidas de dispersão.
Figura 3.6: Conjunto A6 Na Figura 3.6, conjunto A6, os valores estão ainda mais dispersos. O coeficiente de variação sobe para 7,1%. As alterações que fizemos no conjunto provocaram um aumento na dispersão e, consequentemente, nas suas medidas: desvio padrão e coeficiente de variação.
A. F. Beraldo
57
3. Medidas Estatísticas de Dispersão
7. Foi dito que a existência de outliers acarreta uma grande elevação nas medidas de dispersão. Imagine que alguém tivesse cometido um erro na coleta de dados do conjunto do exemplo anterior, e que o último elemento, ao invés de ter 78 kg, foi anotado como se tivesse 128 kg4 . A representação do conjunto é a seguinte:
Figura 3.7: Outliers As estatísticas passam a ser as seguintes: Média Moda Mediana Amplitude Desvio padrão Coef.de Variação
71 68 68 70 15,25 21, 5%
Note que a média foi “puxada” para cima, mas a mediana permanece a mesma (lembre-se que a mediana é a Medida de Tendência Central mais robusta). Mas o desvio padrão e o coeficiente de variação triplicaram de valor.
4
Na verdade, este elemento com 128 kg não é tão discrepante. Mais tarde, na parte de Análise Exploratória de Dados, você irá aprender a identificar com maior precisão os outliers em uma distribuição.
58
A. F. Beraldo
3.5 Propriedades da variância
3.5
Propriedades da variância
Propriedade I Seja um conjunto A, de valores numéricos, definido como: A = {x1 , x2 , x3 , · · · , xn } = {xi }n , e com média X A e variância SA2 Seja um conjunto B, definido como B = {x1 + k, x2 + k, x3 + k, · · · , xn + k} = {xi + k}n , e com média X B e variância SB2 . A variância SB2 será igual à variância SA2 . Assim, se somarmos (ou diminuirmos) uma constante k, a todos os valores de um conjunto, a variância do conjunto não se altera. Propriedade II Seja um conjunto A, de valores numéricos, definido como A = {x1 , x2 , x3 , · · · , xn } = {xi }n , e com média X A e variância SA2 . Seja um conjunto B, definido como B = {x1 · k, x2 · k, x3 · k, · · · , xn · k} = {xi · k}n ,(sendo k uma constante diferente de zero) e com média X B e variância SB2 . A variância SB2 será igual à variância SA2 k 2 . Assim, se multiplicarmos (ou dividirmos) por uma constante k(k 6= 0), a todos os valores de um conjunto, a nova variância será a variância do conjunto original, multiplicada (ou dividida) pelo quadrado desta constante (k 2 ). Propriedade III Seja um conjunto A, de valores numéricos, definido como A = {x1 , x2 , x3 , · · · , xn } = {xi }n , e com média X A e variância SA2 . Sejam um outro conjunto B = {y1 , y2 , y3 , · · · , yn } cujos valores são definidos como Y = aX + b . Pelas Propriedades I e II, acima, temos que SB2 = a2 SA2
A. F. Beraldo
59
Estatística em Grandes Conjuntos: Distribuições de Frequências
4
Até agora, temos estudado conjuntos de tamanho pequeno, com poucos elementos. São amostras que se prestam bem à apresentação dos conceitos de Medidas de Tendência Central (média, moda, mediana) e de Dispersão (variância, desvio padrão, etc.). No entanto, em muitos dos nossos trabalhos é feita a análise estatística de conjuntos bem maiores, com 300, 400, 500 elementos - às vezes muito mais do que isso. Grandes conjuntos são os que possuem mais de 30 elementos. Em termos práticos, a diferença está na maneira de tratar matematicamente as duas categorias. É obvio que, à medida que o conjunto aumenta de tamanho, teremos maior trabalho com os cálculos e com a organização dos dados – é o que estudaremos nas páginas seguintes.
4.1
Frequências Simples
Uma vez extraída a amostra de elementos do Universo, passamos a processar seus dados, para obter as informações que descrevem esta amostra. Estas informações são essencialmente numéricas, ou seja, procuramos obter medidas estatísticas que irão aumentar nosso nível de conhecimento sobre a amostra (e, em um estágio posterior, nos informar sobre o Universo). Suponha que estamos fazendo uma pesquisa em um bairro da cidade, procurando nos informar sobre a variável renda familiar de seus moradores. Foram entrevistadas aleatoriamente 120 pessoas, todas moradoras do bairro. As respostas foram anotadas à medida que se entrevistavam os moradores, e os resultados (chamados dados brutos) estão a seguir (em Salários Mínimos, ou SM):
A. F. Beraldo
61
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
8,2 1,2 5,7 8,2 21,4 2,0 4,0 6,3 9,2 11,6 3,0 3,9 15,0 1,5 2,8
3,2 1,1 7,0 3,4 15,9 2,2 3,9 7,8 10,4 9,9 2,8 1,7 14,7 5,5 3,7
4,1 1,7 7,0 3,2 5,2 12,6 3,8 7,7 10,1 9,1 1,6 2,4 13,5 6,3 5,7
5,1 2,8 5,9 3,2 5,7 12,7 6,2 7,4 9,4 11,0 2,4 2,0 8,4 3,3 5,6
5,1 4,3 6,0 3,4 6,5 19,3 6,7 8,3 12,0 10,6 1,5 3,3 11,0 2,7 4,0
5,3 3,5 7,0 3,8 7,8 20,7 6,8 8,0 11,4 10,6 4,2 3,3 16,4 3,4 3,0
9,5 3,5 8,4 13,7 7,8 24,2 6,4 7,2 11,2 1,6 4,1 4,1 16,8 2,0 2,0
11,2 4,0 8,4 14,2 7,5 4,4 6,2 7,3 12,0 1,1 3,8 4,2 16,2 2,0 4,0
Figura 4.1: Dados brutos
Os dados dispostos na figura 4.1 não apresentam qualquer organização. Ainda não temos ideia de qual será a média ou a moda da renda familiar na amostra, ou como está sua dispersão. O passo seguinte é aumentar o nível de informação sobre a amostra, dispondo os dados em ordem crescente, formando um conjunto chamado Rol: 1,1 1,7 2,4 3,2 3,5 4,0 4,2 5,6 6,3 7,0 7,8 9,1 10,6 12,0 15,9
1,1 2,0 2,7 3,2 3,5 4,0 4,3 5,7 6,3 7,2 8,0 9,2 11,0 12,6 16,2
1,2 2,0 2,8 3,3 3,7 4,0 4,4 5,7 6,4 7,3 8,2 9,4 11,0 12,7 16,4
1,5 2,0 2,8 3,3 3,8 4,0 5,1 5,7 6,5 7,4 8,2 9,5 11,2 13,5 16,8
1,5 2,0 2,8 3,3 3,8 4,1 5,1 5,9 6,7 7,5 8,3 9,9 11,2 13,7 19,3
1,6 2,0 3,0 3,4 3,8 4,1 5,2 6,0 6,8 7,7 8,4 10,1 11,4 14,2 20,7
1,6 2,2 3,0 3,4 3,9 4,1 5,3 6,2 7,0 7,8 8,4 10,4 11,6 14,7 21,4
1,7 2,4 3,2 3,4 3,9 4,2 5,5 6,2 7,0 7,8 8,4 10,6 12,0 15,0 24,2
Figura 4.2: Rol Agora já podemos verificar qual é o menor valor (1,1 SM) e o maior valor (24,2 SM). No entanto, mesmo colocados em ordem, no rol, os dados ainda exigem um bom esforço para entendermos o que se passa na amostra. O nível de informação ainda está muito baixo, e pode (e deve) ser melhorado se classificarmos estes dados, dividindo a amostra 62
A. F. Beraldo
4.1 Frequências Simples
em faixas de renda. Numa primeira tentativa, vamos dividir os dados nas seguintes faixas de renda: de 1 a 3 SM, de 3 a 5 SM, de 5 a 7 SM, e assim por diante, até uma faixa de 23 a 25 SM. Esta divisão é arbitrária, poderíamos ter dividido as classes de 3 em 3 SM, de 5 em 5 SM, etc. Mas esta é, como dissemos, uma primeira tentativa. Começamos a montar uma tabela, em que na primeira coluna colocamos a divisão que adotamos (as faixas de renda): Tabela 4.1: Divisão em faixas de renda Faixas de Renda (*) 1a3 3a5 5a7 7a9 9 a 11 11 a 13 13 a 15 15 a 17 17 a 19 19 a 21 21 a 23 23 a 25 (*) em Salários Mínimos (SM)
Na tabela 4.1, estão dispostos, na primeira coluna, os intervalos que identificam as faixas de rendas. Estes intervalos são chamados classes, e são limitados à esquerda e à direita. Cada classe possui então dois limites: o Limite Inferior e o Limite Superior. As classes são contadas de cima para baixo: 1a classe, de 1 a 3 SM (limite inferior 1, limite superior 3); 2a classe, de 3 a 5 SM (limite inferior 3, limite superior 5), e assim por diante, até a última classe (12a classe), de 23 a 25 SM (limite inferior 23, limite superior 25). Prosseguimos, então, contando quantos elementos da amostra pertencem a cada uma das faixas. Por exemplo, a primeira faixa: Neste ponto, surge uma dúvida: e se na amostra existir um elemento com renda familiar exatamente igual a 3 SM? Este elemento pertence à faixa “1 a 3 SM” ou à faixa “3 a 5 SM”? Temos que adotar um critério, uma “condição de pertinência”. Este critério pode ser um dos seguintes:
1. Classes fechadas à esquerda. a classe “1 a 3” conteria todos os elementos entre 1 e 3 SM, incluindo o elemento com 1 SM e excluindo o elemento com 3 SM. A. F. Beraldo
63
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
1,1 1,7 2,4 3,2 3,5 4,0 4,2 5,6 6,3 7,0 7,8 9,1 10,6 12,0 15,9
1,1 2,0 2,7 3,2 3,5 4,0 4,3 5,7 6,3 7,2 8,0 9,2 11,0 12,6 16,2
1,2 2,0 2,8 3,3 3,7 4,0 4,4 5,7 6,4 7,3 8,2 9,4 11,0 12,7 16,4
1,5 2,0 2,8 3,3 3,8 4,0 5,1 5,7 6,5 7,4 8,2 9,5 11,2 13,5 16,8
1,5 2,0 2,8 3,3 3,8 4,1 5,1 5,9 6,7 7,5 8,3 9,9 11,2 13,7 19,3
1,6 2,0 3,0 3,4 3,8 4,1 5,2 6,0 6,8 7,7 8,4 10,1 11,4 14,2 20,7
1,6 2,2 3,0 3,4 3,9 4,1 5,3 6,2 7,0 7,8 8,4 10,4 11,6 14,7 21,4
1,7 2,4 3,2 3,4 3,9 4,2 5,5 6,2 7,0 7,8 8,4 10,6 12,0 15,0 24,2
Figura 4.3: Contagem dos elementos da primeira faixa de renda
2. Classes fechadas à direita: a classe “1 a 3” conteria todos os elementos entre 1 e 3 SM, incluindo o elemento com 3 SM e excluindo o elemento com 1 SM – foi o critério que adotamos, veja o Quadro 4.3. A notação que empregamos, para indicar se as classes são fechadas à esquerda ou à direita, é a seguinte ( a e b são os limites inferiores e superiores das classes): a ` b Classes fechadas à esquerda: inclui todos os elementos entre a e b, exceto os elementos iguais a b. a a b Classes fechadas à direita: inclui todos os elementos entre a e b, exceto os elementos iguais a a.
A partir da adoção de um destes critérios, podemos partir para o passo seguinte, que é a contagem dos elementos pertencentes às classes. O resultado desta contagem é chamado de f, ou frequência simples (ou, ainda, frequência absoluta). As frequências das classes são colocadas na segunda coluna da tabela, que passa a se chamar Distribuição de Frequências da variável:
64
A. F. Beraldo
4.1 Frequências Simples
Tabela 4.2: Distribuição de Frequências da Renda Familiar do Bairro X Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 Σ
f 23 28 22 15 11 8 5 4 0 2 1 1 120
Note que adotamos o critério de “classes fechadas à direita”. Poderíamos ter adotado outro critério, e as frequências das classes poderiam ser diferentes. Comentários 1. Foi dito que a divisão em classes é feita por “tentativas”. E isto é verdade, nas primeiras vezes que fazemos este trabalho. À medida que se adquire certa experiência, fica mais fácil determinar em quantas classes iremos dividir o conjunto de dados coletados, se as classes terão tamanho igual ou diferente, etc. 2. Alguns autores adotam fórmulas empíricas para determinar em quantas classes iremos dividir o conjunto de dados. O número de classes NC pode ser calculado pelas seguintes expressões: N C = 1 + 3, 3 log n ou NC =
√ n
Onde “n” é o tamanho do conjunto de dados. Você pode escolher qualquer uma destas fórmulas, mas, voltando ao Comentário 1, sua experiência é que irá indicar o melhor NC. Aqui se fazem duas recomendações: não se deve dividir o rol em menos de 5 classes. Assim, o número de classes deve ser maior ou igual a 5. Outra: procure utilizar o maior número de classes possível (sem exageros, é claro - na prática, trabalhamos com no máximo 10 a 12 classes, na maioria das vezes). A. F. Beraldo
65
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
3. As classes não precisam, necessariamente, possuir o mesmo tamanho. Caso seja preciso, você pode variar os tamanhos (amplitudes) das classes, atendendo a alguma condição especial. A exigência que se faz é que o limite inferior de uma classe tem que ser igual ao limite superior da classe anterior (com uma exceção, como se verá nos exercícios resolvidos), ou seja, os intervalos de classe se dispõem de forma contínua. 4. Há algum tempo atrás, havia uma preocupação em dividir a amostra de forma a não deixar nenhuma classe com frequência igual a 0. Atualmente, não há esta preocupação, e é até recomendável que as classes tenham amplitudes iguais, não importando se alguma classe não contém elementos amostrais (f = 0). De certa forma, este procedimento auxilia a entender ainda melhor a amostra. 5. O mais importante é que a tabela de Distribuição de Frequências forneça uma boa ideia do que está ocorrendo na amostra, para a variável em estudo. Recapitulando: Um conjunto de 120 elementos, com os valores da variável Renda Familiar, medida em salários mínimos (SM), foi dividido em classes (faixas) de renda, de amplitudes (tamanhos) iguais. Adotou-se o critério de “fechada a direita”(a a b). Contaram-se quantos elementos (quantas rendas familiares) pertenciam a cada classe, colocando-se o resultado na segunda coluna, das frequências simples (f). Tabela 4.3: Distribuição de Frequências da Renda Familiar do Bairro X
66
A. F. Beraldo
4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência
4.2
Frequências Relativas, o Histograma e os Polígonos de Frequência
Em Estatística, muito raramente se trabalha com as frequências simples para descreverse a amostra. Prefere-se, e é mais cômodo, trabalhar com as chamadas frequências relativas, f r, que exprimem o percentual de elementos dentro de cada classe. Cada classe tem a sua frequência relativa, que é calculada pela fórmula: f f r = P × 100 f
(4.1)
que pode ser escrita desta forma:
fr =
f × 100 n
(4.2)
Onde n = f , e n é chamado tamanho da amostra (é o número de entrevistas que foram feitas). No exemplo da Tabela 4.3, n = 120. P
A frequência relativa é expressa em percentuais, como foi dito. Por exemplo, a frequência relativa da primeira classe (1a 3) é calculada assim:
fr =
f 23 × 100 = × 100 = 19, 2 n 120
O número 19,2 é lido como 19,2 porcento. Em muitos livros e artigos, principalmente de origem dos EUA ou da Europa, você vai encontrar a frequência relativa expressa em decimais, e não em percentagem. Por exemplo, 19,2 (%) é escrito 0,192. A fórmula de cálculo das frequências relativas é escrita, então, como: f fr = P
A. F. Beraldo
f
=
f n
(4.3)
67
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
Calculando as frequências relativas para todas as classes, temos: Tabela 4.4: Distribuição de Frequências da Renda Familiar do Bairro X Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 Σ
f 23 28 22 15 11 8 5 4 0 2 1 1 120
fr 19,2 23,3 18,3 12,5 9,2 6,7 4,2 3,3 0,0 1,7 0,8 0,8 100,0
Na prática, não se coloca o símbolo % após o valor das frequências relativas, nem as palavras explicando o que quer dizer cada coluna. A tabela da Distribuição de Frequências, como manda a norma, fica da seguinte forma: Como se “lê” este tipo de tabela? • Esta tabela é chamada distribuição de frequências. Na primeira coluna da tabela estão, obrigatoriamente, as classes: 1 a 3, 3 a 5, 5 a 7, etc. Uma classe é sempre identificada por dois números, significando um intervalo numérico. Por exemplo, a classe 1 a 3 lê-se “intervalo de 1 a 3 salários mínimos”. Os números que identificam a classe são chamados limite inferior e limite superior da classe. Na classe 1 a 3, o limite inferior é 1, o limite superior é 3; na classe 3 a 5, o limite inferior é 3, e o superior é 5, e assim por diante. • Na segunda coluna estão as frequências simples (f). Uma frequência simples é o número de elementos da amostra pertencente a cada classe. É o resultado de uma contagem. Assim, na classe 1a 3, temos 23 elementos; na classe 3 a 5, temos 28 elementos; na classe 5 a 7, temos 22 elementos, e assim por diante. • Na terceira coluna estão as frequências relativas (fr). Uma frequência relativa é o percentual de cada classe em relação ao total da amostra. Assim, na classe 1 a 3, temos 23 elementos, que equivalem a 19, 2% da amostra; na classe 3 a 5, temos 28 elementos, que representam 23, 3% da amostra; na classe 5 a 7, temos 22 elementos, que representam 18, 3% da amostra, e assim por diante. 68
A. F. Beraldo
4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência
O nível de informação sobre a amostra aumentou bastante: agora, já sabemos com segurança muita coisa sobre a amostra (e até tabelamos nossos dados). Sabemos qual a classe mais numerosa e a menos numerosa, e quanto cada classe representa percentualmente, sobre o total da amostra. Podemos aumentar ainda mais o conhecimento sobre a amostra, utilizando um excelente recurso de representação de dados: os gráficos. Um gráfico bastante utilizado para representar distribuições de frequências é o Histograma de Frequências:
Figura 4.4: Histograma de frequências
Figura 4.5: Histograma de frequências
A. F. Beraldo
69
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
Outro tipo de histograma muito utilizado é o Histograma de Frequências Relativas. A construção do gráfico é mesma, apenas mudando, no eixo vertical, de frequências absolutas (f ) para frequências relativas (f r):
Figura 4.6: Histograma de frequências relativas Porém, um histograma mais completo apresenta dois eixos verticais: um para as frequências simples (f), outro para as frequências relativas (fr). Veja a seguir:
Figura 4.7: Histograma de frequências absolutas e relativas Outro tipo de gráfico também é muito utilizado para representar uma distribuição de frequências. Trata-se do Polígono de Frequências Relativas, que é traçado unindo-se 70
A. F. Beraldo
4.2 Frequências Relativas, o Histograma e os Polígonos de Frequência
por segmentos de reta (poligonais) os pontos médios das bases superiores dos retângulos do Histograma:
Figura 4.8: Polígono de frequências Ao final do processo, obtemos a poligonal fechada que é a imagem da distribuição de frequência:
Figura 4.9: Polígono de frequências relativas
A. F. Beraldo
71
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
Costuma-se, também, traçar o Polígono de Frequências Relativas sem o Histograma, com os segmentos de reta unindo os pontos (x, y), onde x é ponto médio das classes e y a frequência relativa das classes:
Figura 4.10: Polígono de frequências relativas
72
A. F. Beraldo
4.3 Frequências Acumuladas
4.3
Frequências Acumuladas
Aumentando mais o nível de informações sobre a amostra, introduzimos mais uma estatística: a Frequência Acumulada (F). A Frequência Acumulada de uma classe é a soma das frequências absolutas, desde a primeira classe até aquela classe. Para montar a coluna das Frequências Acumuladas, proceda da seguinte forma: 1. Na primeira classe, repita a frequência simples da classe: Tabela 4.5: Distribuição de Frequências da Renda Familiar do Bairro X
2. Em seguida, faça a soma deste valor com a frequência absoluta da segunda classe: Tabela 4.6: Distribuição de Frequências da Renda Familiar do Bairro X
A. F. Beraldo
73
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
3. Repita a operação para as demais classes: Tabela 4.7: Distribuição de Frequências da Renda Familiar do Bairro X
Note que a última Frequência Acumulada tem que ser igual ao tamanho da amostra. Os valores na coluna das Frequências Acumuladas nos dão a seguinte informação: a Frequência Acumulada de uma classe é a quantidade de elementos existentes na amostra, desde o limite inferior da primeira classe até o limite superior da classe considerada. Podemos escrever desta forma:
Fk =
i=k X
fi
(4.4)
i=1
Ou seja, a Fk , frequência acumulada da classe k é a soma das frequências simples desde a primeira classe até a k-ésima classe.
74
A. F. Beraldo
4.4 Frequências Relativas Acumuladas e a Ogiva de Galton
4.4
Frequências Relativas Acumuladas e a Ogiva de Galton
De maneira análoga à das Frequências Acumuladas, montamos a coluna das Frequências Relativas Acumuladas F r, tendo por base a coluna das Frequências Relativas: 1. Na primeira classe, repita a sua frequência relativa: Tabela 4.8: Distribuição de Frequências da Renda Familiar do Bairro X
2. Em seguida, faça a soma deste valor com a frequência relativa da segunda classe: Tabela 4.9: Distribuição de Frequências da Renda Familiar do Bairro X
A. F. Beraldo
75
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
3. Repita a operação para as demais classes: Tabela 4.10: Distribuição de Frequências da Renda Familiar do Bairro X
Note que a última Frequência Relativa Acumulada tem que ser igual a 100%. Os valores na coluna das Frequências Relativas Acumuladas nos dão a seguinte informação: a Frequência Relativa Acumulada de uma classe é o percentual de elementos existentes na amostra, desde o limite inferior da primeira classe até o limite superior da classe considerada. Podemos escrever desta forma:
F rk =
i=k X
f ri
(4.5)
i=1
Ou seja, a F rk , frequência relativa acumulada da classe k é a soma das frequências relativas desde a primeira classe até a k-ésima classe. Para representar os valores destas duas estatísticas (F e Fr), utilizamos o Polígono de Frequências Acumuladas (Ogiva de Galton), que se constrói da seguinte forma:
1. Traçam-se os eixos cartesianos, com dois eixos verticais. No primeiro eixo vertical, à esquerda, colocamos a escala para os valores de F, começando obrigatoriamente do zero e crescendo até n (tamanho do conjunto, neste exemplo igual a 120). No segundo eixo vertical, à direita, colocamos os valores percentuais, começando também do 0 e crescendo até 100% - com intervalos (escala) de 10% em 10%. 76
A. F. Beraldo
4.4 Frequências Relativas Acumuladas e a Ogiva de Galton
2. No eixo horizontal colocamos os valores dos limites das classes. Neste eixo não é obrigatório começar-se do valor zero, mas devemos colocar o sinal de “quebra de escala”, se for o caso.
Figura 4.11: Eixos cartesianos para o traçado do polígono de frequências acumuladas
3. O Polígono de Frequências Acumuladas é uma linha suave, cujo ponto de origem é dado pelas coordenadas (x, y), sendo x o limite inferior da primeira classe, e y igual a zero.
Figura 4.12: Marcação do primeiro ponto do polígono de frequências acumuladas
A. F. Beraldo
77
4. Estatística em Grandes Conjuntos: Distribuições de Frequências
4. O segundo ponto do polígono é dado por: limite superior da primeira classe, frequência acumulada da primeira classe.
Figura 4.13: Marcação de pontos no polígono de frequências acumuladas
5. Para os demais pontos, que representam os limites superiores das classes, a ordenada é a frequência acumulada da classe.
Figura 4.14: Marcação de pontos no polígono de frequências acumuladas
78
A. F. Beraldo
4.4 FrequĂŞncias Relativas Acumuladas e a Ogiva de Galton
Ao terminar de marcar os pontos, trace uma linha suave unindo-os:
Figura 4.15: PolĂgono de frequĂŞncias acumuladas (Ogiva de Galton)
A. F. Beraldo
79
5
Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão
Em Estatística, muitas vezes as amostras são bem maiores, formando conjuntos de 100, 300, 600 elementos ou mais, muito mais. Neste caso, utilizamos as Distribuições de Frequências, não só para o que foi explicado no Capítulo 4, mas também para calcular as Estatísticas de Tendência Central e as demais estatísticas. Os conceitos de Tendência Central (média, moda e mediana) são os mesmos que foram apresentados para as amostras de tamanho pequeno. Este capítulo introduz novas fórmulas, que são adaptações de cálculo quando o tamanho maior dos conjuntos torna difícil ou trabalhoso a utilização das fórmulas que foram estudadas no Capítulo 2.
5.1
Cálculo da Média:
Vamos exemplificar o cálculo da média para grandes amostras utilizando a distribuição de frequências a seguir (a mesma com que estamos trabalhando no Capítulo 4). Tabela 5.1: Classes de renda Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 P
f 23 28 22 15 11 8 5 4 0 2 1 1 120
Montamos uma terceira coluna, onde estão os valores de uma estatística chamada ponto médios da classe (x). Cada classe possui o seu ponto médio, que é calculado pela fórmula : A. F. Beraldo
81
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão
x=
LI + LS 2
(5.1)
Onde x é o ponto médio da classe, LI é o limite inferior da classe e LS o limite superior da classe. O ponto médio, portanto, é a média dos limites das classes. A tabela passa a ter, então, mais esta coluna: Tabela 5.2: Classes de renda Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 P
f 23 28 22 15 11 8 5 4 0 2 1 1 120
x 2 4 6 8 10 12 14 16 18 20 22 24
O conceito de ponto médio é o seguinte: após a elaboração da distribuição de frequências, os dados originais da amostra são abandonados. Sabe-se quantos elementos pertencem a cada classe (frequências simples da classe), mas não se sabe mais quais eram estes elementos. O ponto médio representa toda a classe - imagina-se que a classe está concentrada em seu ponto médio, que é o valor característico da classe. A partir disto, pode-se assumir que, no exemplo acima, todos os 23 elementos da primeira classe são iguais a 2; todos os 28 elementos da segunda classe são iguais a 4, e assim por diante. É o mesmo que dizer que as 23 famílias da primeira classe, que tem renda entre 1 e 3 SM, tem uma renda média de 2 SM; que as 28 famílias da segunda classe, que tem renda entre 3 e 5 SM, tem renda média de 4 SM, e assim por diante. É claro que esta é uma simplificação, um artifício de cálculo que fazemos para estimar, primeiramente, a média de cada classe, e, depois, a média de todo o conjunto. Esta é uma das razões pelas quais se deve dividir uma amostra no maior número de classes possível, fazendo que a amplitude das classes seja a menor possível 82
A. F. Beraldo
5.1 Cálculo da Média:
isto diminui o “erro” (imprecisão) em tomar toda a classe pelo seu ponto médio, que é a média dos limites.
A fórmula da média para distribuições de frequências (dados grupados) é a seguinte: Pi=k
X=
i=1
f i xi
n
(5.2)
Onde X é a média,fi e xi são as frequências e os pontos médios das classes e n é o P tamanho da amostra,(n = i=n i=1 fi ) , na qual k é número de classes da distribuição de frequência. P
Para obter o numerador da fórmula fi .xi ,utilizamos uma quarta coluna, na qual vão estar os resultados dos produtos frequência vezes o ponto médio das classes: Tabela 5.3: Cálculo dos produtos Frequência × ponto médio
A. F. Beraldo
83
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão Finalmente, calculamos a média: Pi=k
X=
i=l
n
f i xi
=
836 = 6, 97 ∼ = 7, 0 120
Comentários Esta fórmula é a fórmula da média ponderada (veja Capítulo 2). O que se fez foi assumir que toda uma classe está concentrada no seu ponto médio, e utilizar as frequências das classes como pesos, ou ponderações dos pontos médios. Veja a semelhança entre as duas expressões:
P
xi p i Xp = P pi Média ponderada
P
X=
f i xi n
Média para distribuições de frequência No Histograma de Frequência da distribuição, vemos a posição da média:
Figura 5.1: Histograma de Frequências Absolutas e Relativas, mostrando a média aritmética da distribuição
84
A. F. Beraldo
5.1 Cálculo da Média:
Outra fórmula para o cálculo da média utiliza as frequências relativas, ao invés das frequências absolutas. A expressão é :
X=
i=k X
f ri .xi
(5.3)
i=1
Tabela 5.4: Cálculo dos produtos Frequência Relativa × ponto médio
A. F. Beraldo
85
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão
5.2
Cálculo da Moda
A moda de uma distribuição de frequências pode ser calculada através de dois métodos. Um, o método de King, que fornece uma moda “grosseira”, e outro, o método de Czuber, que fornece uma moda mais precisa. Ambos os métodos se referem a uma classe modal, que é a classe de maior frequência da distribuição. Por exemplo, considere a distribuição a seguir: Tabela 5.5: Determinação da classe modal
A classe modal é a classe 3 a 5, que é a que possui a maior frequência. Partimos do princípio de que as distribuições de frequência que apresentam diferentes frequências de classes possuem pelo menos uma moda e que esta moda, pelo próprio conceito da medida, deve pertencer à classe modal, isto é, deve ser um número entre o limite inferior e o limite superior da classe modal.
Pelo método de King, a moda de uma distribuição de frequências é o ponto médio da classe modal:
c X king =
LIk + LSk 2
(5.4)
Onde Linfk e Lsupk são os limites inferior e superior da classe modal.
86
A. F. Beraldo
5.2 Cálculo da Moda
Para a distribuição acima, a moda de King será:
c X king =
LIk + LSk 3+5 = =4 2 2
(5.5)
Comentários A moda de King é uma aproximação da moda verdadeira. É chamada, por alguns autores, de moda “grosseira”, não sendo muito utilizada. No entanto, fornece uma boa indicação do valor da moda real. A moda, segundo o método de Czuber, é calculada através da seguinte fórmula: c = LI + X k
DA DA + DP
Ampk
(5.6)
Onde: LIk é o limite inferior da classe modal; DA diferença entre a frequência da classe modal e a frequência da classe anterior; DP diferença entre a frequência da classe modal e a frequência da classe posterior; Ampk amplitude da classe modal.
A. F. Beraldo
87
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão Calculando a moda de Czuber para a distribuição dada, teremos: Tabela 5.6: Cálculo da moda de Czuber
Aplicando na fórmula, temos: DA LIk + DA + DP
c= X
5 Ampk = 3 + .2 = 3, 9 5+6
Comentários 1. Deve-se ter em mente que o cálculo da moda, pelo método de Czuber, só pode ser aplicado a distribuições unimodais. Assume-se que a amostra possui uma, e apenas uma moda e que esta moda pertence à classe de maior frequência. 2. No caso de nos depararmos com distribuições que aparentam possuir mais de uma moda, não aplicamos o processo de Czuber.
88
A. F. Beraldo
5.3 Cálculo da Mediana
5.3
Cálculo da Mediana
A mediana, em distribuições de frequências, é calculada pela fórmula !
f f = LI + P os(X) − Fant Amp X m m f
(5.7)
Onde: f é o valor da mediana. X
LIm Limite inferior da classe que contém a mediana f Posição da mediana P os(X)
Fant Frequência acumulada da classe da posição anterior à classe que contém a mediana. Ampm Amplitude (tamanho) da classe que contém a mediana. f da mediana é calculada através da fórmula P os(X) f = n/2, na A posição ( P os(X)) qual n é o tamanho da amostra. Em alguns livros você encontrará a seguinte fórmula, que também é válida:
f = P os(X)
A. F. Beraldo
(n + 1) 2
89
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão
5.3.1
Roteiro para o cálculo da mediana
Seja a distribuição de frequências com a qual estamos trabalhando: Tabela 5.7: Cálculo da mediana Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 P
f 23 28 22 15 11 8 5 4 0 2 1 1 120
1o passo O tamanho n da amostra é 120. A partir deste valor, calculamos a posição da mediana: f = n/2 = 120/2 = 60 P os(X) Note que não arredondamos os valores encontrados para as posições. As posições para a mediana podem ser números inteiros (quando n é par), ou decimais (quando n é impar). Por exemplo, se n fosse igual a 121, teríamos f = n/2 = 121/2 = 60, 5 P os(X)
Não se deve arredondar este valor para 61.
90
A. F. Beraldo
5.3 Cálculo da Mediana
2o passo Calcula-se a coluna das frequências acumuladas (F): Tabela 5.8: Cálculo da mediana Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 P
f 23 28 22 15 11 8 5 4 0 2 1 1 120
F 23 51 73 88 99 107 112 116 116 118 119 120
3o passo Identifica-se a classe que contém a mediana. A classe que contém a mediana é aquela cuja a frequência acumulada (F) é a primeira frequência acumulada maior ou igual à posição da mediana. Neste exemplo, a primeira frequência acumulada (F) maior ou igual à posição da mediana (60,0) é F = 73. Tabela 5.9: Cálculo da mediana
A frequência acumulada F = 73, correspondente à classe 5 a 7, é a primeira frequência acumulada com valor igual a superior a 60,0, que é a posição da mediana. Portanto, a classe que contém a mediana será classe 5 a 7. Em outras palavras, a mediana terá um valor entre 5 e 7 (valor que calcularemos a seguir).
A. F. Beraldo
91
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão 4o passo Uma vez encontrada a classe à qual pertence a mediana, podemos aplicar os dados na fórmula para encontrar o valor da mediana: !
f= X
f −F P os(X) 60 − 51 ant LIm + Ampm = 5 + 2 = 5, 8 f 22
Outra maneira de calcular a mediana seria através do polígono de frequência acumulada. A partir do valor de 50% no eixo dos percentuais, trace uma horizontal até encontrar a curva. Do ponto que esta horizontal encontrou a curva, trace uma reta vertical até encontrar o eixo das classes. Onde esta vertical encontrar o eixo será o ponto que contém o valor da mediana. Veja a figura a seguir:
Figura 5.2: Determinação gráfica da mediana
92
A. F. Beraldo
5.3 Cálculo da Mediana
Comentários Neste capítulo foram apresentadas fórmulas empíricas para o cálculo das Medidas de Tendência Central em distribuições de frequência. Assim, fizemos suposições a priori para o cálculo destas medidas, uma vez que, como você deve estar lembrando, não dispomos mais dos dados originais – e sim da distribuição de frequências. • Para calcular a média, partimos da suposição que os valores pertencentes a cada classe poderiam ser substituídos pelo ponto médio x. • Para calcular a moda, a premissa foi de que a distribuição possuía moda, e esta pertencia à classe de maior frequência, chamada classe modal. • Para calcular a mediana, a suposição foi que os valores dentro da classe da mediana distribuem-se linearmente. A fórmula do cálculo da mediana, na verdade, é uma espécie de “regra de três”. Assim, os valores que encontramos para estas medidas são valores estimados, mas que se aproximam bastante dos valores reais, pelo menos no caso da média e da mediana, como você pode conferir no quadro a seguir: Quadro 1: Comparação entre valores estimados e reais das Medidas de Tendência Central Medida Média Mediana Moda
Valor estimado 6,97 5,8 3,9
Valor real 6,92 5,8 2,0
Para a média e a mediana, o erro foi desprezível ou nulo. Já no caso da moda, o erro foi muito grande. As fórmulas empíricas “funcionam” muito bem – têm uma precisão muito boa – quando: √
√ √
No caso da média, quando o número de classes é grande (mais de 10 classes, p. ex.), o que acarreta intervalos de classe menores, com os pontos médios tornando-se valores característicos bem mais precisos das classes; No caso da mediana, quando o tamanho do conjunto é grande (mais de 100 elementos, p. ex.); No caso da moda, quando a frequência modal (frequência da classe modal) for elevada (mais de 50%, p. ex.).
A. F. Beraldo
93
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão
5.4
Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação
O cálculo das Medidas de Dispersão para pequenos conjuntos é muito fácil, como vimos. Torna-se mais trabalhoso quando trabalhamos com amostras maiores, n > 30. Vamos continuar com a nossa planilha de cálculo, na qual estamos trabalhando desde o cálculo de Medidas de Tendência Central para grandes conjuntos (em distribuições de frequências). A distribuição de frequências com a qual estamos trabalhando é a seguinte: Tabela 5.10: Distribuição de Frequências da Renda Familiar do Bairro X f 23 28 22 15 11 8 5 4 0 2 1 1 P 120 (*) em Salários Mínimos (SM)
Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25
Para pequenos conjuntos, o processo de cálculo da variância consistia em calcular os desvios di dos elementos xi dos conjuntos, para depois elevá-los ao quadrado1 . A variância foi definida como uma espécie de “média” dos quadrados dos desvios:
2
s =
Pi=n 2 d i=1
n−1
i
(5.8)
Para o cálculo da variância em distribuições de frequência, assume-se que o ponto médio xi das classes representa (ou substitui) todos os valores originais da amostra, pertencentes àquela classe. Então, para a tabela 5.1, convenciona-se que a primeira 1
Advertência: não prossiga no estudo deste Capítulo sem que o assunto “Dispersão em Pequenos Conjuntos” (Capítulo 3) esteja muito bem compreendido!
94
A. F. Beraldo
5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação
classe, de 1 a 3 SM,contendo 23 elementos, possui todos os seus elementos iguais a 2 SM (ponto médio da classe)2 . Assim, na primeira classe teremos 23 elementos iguais a 2 SM, na segunda classe teremos 28 elementos iguais a 4 SM, na terceira classe teremos 22 elementos iguais a 6 SM, e assim por diante. Dizendo de outra forma, assume-se que todos os 23 elementos da primeira classe se concentram em torno do valor 2 SM, os 28 elementos da segunda classe se concentram no valor 4 SM, etc. A frequência da classe é, por assim dizer, o número de repetições do ponto médio. Lembrando da definição básica de dispersão, a estatística desvio (di ) passa a se referir não mais aos elementos do conjunto, mas aos pontos médios das classes. Assim, o desvio passa a ser definido como o Desvio da Classe – distância do ponto médio da classe à média da distribuição de frequência:
di = xi − X
(5.9)
Onde di é o Desvio da Classe, xi é o ponto médio da classe e X a média da distribuição de frequência. Então, os desvios dos elementos pertencentes a cada classe passam a ser tantos quanto for a frequência de cada classe. Por exemplo, na primeira classe teremos 23 elementos iguais a 2 SM, e 23 desvios iguais a –5 SM (di = xi − X 3 ,di = 2 − 7 = −5 SM) na segunda classe teremos 28 elementos iguais a 4 SM, e 28 desvios iguais a –3 SM, na terceira classe teremos 22 elementos iguais a 6 SM, e 22 desvios iguais a –1 SM, e assim por diante. Daí, que a fórmula da variância, para distribuições de frequência, é adaptada para
2
s =
Pi=k i=1
n
fi d2i
(5.10)
Onde di é o Desvio da Classe, fi é a frequência da classe e n o tamanho do conjunto4 . 2
Esta mesma premissa é usada no cálculo da média em distribuições de frequência. Como você deve estar lembrando, após montarmos uma distribuição de frequência para um coleção de dados, estes dados originais são abandonados e passamos a trabalhar apenas com a “imagem” da amostra, que é a distribuição de frequências. 3 Lembrar que a média desta distribuição de frequências é igual a 7 SM (aprox.) – vide capítulo anterior. P 4 Lembrando que n = fi
A. F. Beraldo
95
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão Comentários Note que o denominador da expressão de cálculo das variâncias é n, e não n−1. Torna-se irrelevante, agora, uma vez que estamos trabalhando com conjuntos bem maiores e tanto faz dividirmos o numerador, que será um número “bem grande”, por n ou por n − 1. O processo de cálculo é o seguinte: 1. Calculamos a média aritmética da distribuição de frequência, conforme descrito no capítulo anterior. Vamos adotar o valor de X = 7, 0 2. Em seguida, montamos mais uma coluna, a dos desvios di : Tabela 5.11: Cálculo da variância Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 P
96
f 23 28 22 15 11 8 5 4 0 2 1 1 120
xi 2 4 6 8 10 12 14 16 18 20 22 24
di −5 −3 −1 1 3 5 7 9 11 13 15 17
A. F. Beraldo
5.4 Cálculo da Variância, do Desvio Padrão e do Coeficiente de Variação
3. A seguir, montamos a coluna dos quadrados dos desvios, d2i Tabela 5.12: Cálculo da variância Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 P
f 23 28 22 15 11 8 5 4 0 2 1 1 120
xi 2 4 6 8 10 12 14 16 18 20 22 24
d2i 25 9 1 1 9 25 49 81 121 169 225 289
di −5 −3 −1 1 3 5 7 9 11 13 15 17
4. Finalmente, multiplicamos os valores desta última coluna pelas frequências das classes(f d2i ): Tabela 5.13: Cálculo da variância Classes de Renda 1 —| 3 3 —| 5 5 —| 7 7 —| 9 9 —| 11 11 —| 13 13 —| 15 15 —| 17 17 —| 19 19 —| 21 21 —| 23 23 —| 25 P
f 23 28 22 15 11 8 5 4 0 2 1 1 120
xi 2 4 6 8 10 12 14 16 18 20 22 24
di −5 −3 −1 1 3 5 7 9 11 13 15 17
d2i 25 9 1 1 9 25 49 81 121 169 225 289
f d2i 575 252 22 15 99 200 245 324 0 338 225 289 2584
Note o valor 2.584, da última célula à direita, embaixo, da tabela. Este valor é P igual a f d2i . A fórmula da variância, como vimos, é:
2
s =
A. F. Beraldo
Pi=k i=1
fi d2i
n
97
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão Já temos, portanto, o numerador da fórmula. Completando o cálculo, vem:
2
Pi=k
fi d2i
i=1
s =
n
=
2584 = 21, 5 120
O desvio padrão é a raiz quadrada da variância: √ s=
s=
s2
(5.11)
√ √ s2 = 21, 5 = 4, 6
O coeficiente de variação é dado por
CV =
CV =
s X
(5.12)
s 4, 6 = 0, 66 ou 66% = 7 X
Comentários 1. Você deve ter notado que as fórmulas para o cálculo das Medidas de Dispersão mudaram muito pouco, de conjuntos pequenos para grandes conjuntos. Os conceitos são exatamente os mesmos: procuramos caracterizar a dispersão ou concentração dos elementos amostrais em torno da média. E estas Medidas de Dispersão vão nos informar sobre vários aspectos da distribuição dos elementos amostrais. 2. No cálculo da variância, o numerador da fórmula é mesmo “n”, uma vez que não faz sentido o substituirmos por n − 1, já que estamos trabalhando com grandes amostras, com n > 30. 3. Nos livros mais antigos, você encontrará uma série de artifícios matemáticos para o cálculo das Medidas de Tendência Central e de dispersão em distribuições de 98
A. F. Beraldo
5.5 Exemplos Comentados
frequência. São bastante engenhosos e facilitam muito as operações, mas, atualmente, com as planilhas de cálculo e pacotes estatísticos em microcomputadores, estes artifícios tornaram-se obsoletos. Por isso, não trataremos destes processos nesta apostila.
5.5
Exemplos Comentados
Exemplo 5.1. Vamos utilizar as seguintes distribuições de frequência para ilustrar e comentar as Medidas de Dispersão: DF A Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14 14 —| 16 16 —| 18 P
f 6 12 22 35 50 35 22 12 6 200
DF B Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14 14 —| 16 16 —| 18 P
f 1 10 20 30 78 30 20 10 1 200
DF C Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14 14 —| 16 16 —| 18 P
f 0 3 12 25 120 25 12 3 0 200
Todas as DF’s possuem um tamanho n = 200, e média X = 9. A análise será feita a partir dos histogramas de frequência, a seguir
Figura 5.3: Histograma da distribuição A A distribuição A possui frequências em todas as classes. O desvio padrão é igual a 3,6, e o CV é igual a 0,40, ou 40%. A. F. Beraldo
99
5. Estatística em Grandes Conjuntos: Medidas de Tendência Central e Dispersão
Figura 5.4: Histograma da distribuição B
A distribuição B também possui frequências em todas as classes, mas note que houve um aumento na frequência da classe central, de 50 para 78, e uma consequente diminuição nas frequências das outras classes. O desvio padrão cai para 2,9 e o CV cai para 0,32 (ou 32%). Aumentando ainda mais a frequência da classe central, de 78 para 120, ocorre uma concentração maior de valores nesta classe, e uma diminuição das frequências das classes mais afastadas, tanto à esquerda quanto à direita da classe central. Isto acarreta uma diminuição tanto no desvio padrão quanto no CV:
Figura 5.5: Histograma da distribuição C
O desvio padrão da distribuição C cai para 2,0, e o CV cai para 0,22. Notar que o histograma da distribuição mostra a coluna da classe central com uma diferença cada vez maior, na altura (frequência da classe). Utilizando o polígono de frequência e colocando as três distribuições no mesmo gráfico, temos a figura seguinte: 100
A. F. Beraldo
5.5 Exemplos Comentados
Figura 5.6: Polígonos de Frequência das distribuições A, B e C
Observar, na figura acima, que quanto maior a concentração na classe central, menor o desvio padrão e o CV.
A. F. Beraldo
101
6
Estatística em Grandes Conjuntos: Medidas de Posição
No decorrer dos últimos capítulos, vimos como obter informações sobre o conjunto, a partir dos dados das suas medidas. Já sabemos calcular as Medidas de Tendência Central (média, moda, mediana), já possuímos uma boa ideia de como está a dispersão (variância, desvio padrão , coeficiente de variação) e aprofundamos nosso conhecimento sobre grandes conjuntos, utilizando distribuições de frequências e os gráficos associados (Histograma, Polígonos de frequência simples e de frequência acumulada). Estas informações são muito úteis quando os dados estão concentrados em torno da média, com baixos coeficientes de variação e quando a distribuição é unimodal, o que torna as Medidas de Tendência Central boas caracterizadoras da amostra. No entanto, algumas distribuições não seguem esta configuração: são distribuições cujas amplitudes possuem intervalos muito extensos, o que produz médias e as outras Medidas de Tendência Central não-características, além de fornecer elevados Desvios Padrões e Coeficientes de Variação. Nosso conhecimento, diante destes tipos de distribuições, revela-se insatisfatório. Precisamos de mais informações sobre a amostra, para poder tomar decisões. É o caso, por exemplo, de termos que lidar com a variável IDADE de uma população. Pesquisando esta variável de forma generalizada, em uma cidade, iremos descobrir que as idades variam desde o valor “zero ano” (os recém-nascidos), até os 90 ou 100 anos (em alguns lugares, até bem mais que isso). Ao tabularmos os valores desta variável, as idades coletadas irão pertencer às classes de 0 a 10 anos, 10 a 20 anos, 20 a 30 anos, e assim por diante, até uma última classe, digamos, dos 100 aos 110 anos. Em seguida, calcularíamos a média - por exemplo, 22,3 anos de idade. O que quer dizer este número? Apenas isto: a média de idade é de 22,3 anos. E mais nada. O desvio padrão e o coeficiente de variação, com certeza, iriam invalidar esta média como medida característica da população. Mesmo a mediana e a moda seriam inócuas - por ter a população uma gama de idades que vai do 0 aos 110 anos. Outro exemplo: a variável RENDA. Em um país como o nosso, em que a distribuição de renda era, em 2003, a segunda pior do mundo, falar-se de “renda média” ou de “renda mediana” não acrescenta nada ao conjunto de informações que necessitamos. No Brasil, temos casos até de “renda negativa”, e uma forte concentração de renda nas classes econômicas mais abastadas. A. F. Beraldo
103
6. Estatística em Grandes Conjuntos: Medidas de Posição
Para muitas outras variáveis, ocorre o mesmo problema. Variáveis tais como as estudadas em Educação Física, Economia, Ciências Sociais, Ciências Humanas, etc., carecem que estudemos com maior profundidade o seu comportamento. Em síntese, são variáveis cuja evolução não é regular e existe pouca concentração de dados em torno da média. Mais informações sobre estas variáveis podem ser obtidas com o cálculo das Separatrizes. Uma Separatriz é uma estatística, ou seja, um número único, que divide uma distribuição de valores em duas partes. É como se fosse um limite, uma fronteira. Já conhecemos uma separatriz, a mediana. A mediana é o valor que separa um conjunto de valores, dispostos em ordem crescente (ou decrescente) de forma que 50% da distribuição estejam abaixo da mediana, e os outros 50% acima da mediana. Podemos dizer, então, que a mediana é o valor que divide uma distribuição de valores numéricos em duas metades. Existem outras separatrizes importantes para auxiliar a compreender e descrever o comportamento de uma variável. Neste capítulo, estudaremos as separatrizes, a partir da Distribuição de Frequência da tabela 1.1 – Notas de um Concurso, a seguir: Tabela 6.1: Notas de um concurso Classes de Notas 0 —| 10 10 —| 20 20 —| 30 30 —| 40 40 —| 50 50 —| 60 60 —| 70 70 —| 80 80 —| 90 90 —| 100 Σ
f 21 36 50 30 28 26 20 17 12 10 250
A tabela acima mostra dados de uma prova a que foram submetidos 250 inscritos em um concurso. Teoricamente, as notas vão de “mais de zero” até 100.
104
A. F. Beraldo
Calculando as Medidas de Tendência Central e dispersão, temos: Tabela 6.2: Estatísticas Estatística Média Mediana Moda Desvio padrão CV
40,7 36,0 24,1 24,9 61%
Note que o desvio padrão de quase 25 pontos e um coeficiente de variação de 61% invalida a média como caracterizadora do conjunto. A frequência modal, em torno de 20%, também é insuficiente para adotarmos a moda como valor característico. Parece que ficamos no mesmo lugar, em termos de nível de informação sobre esta variável. O Histograma de frequência está na figura a seguir:
Figura 6.1: Histograma de Frequências das Notas do Concurso
A. F. Beraldo
105
6. Estatística em Grandes Conjuntos: Medidas de Posição
Continuando a nossa análise, observando o gráfico, verificamos que há uma região de concentração em torno dos 25 pontos. Mas qual será o número de pontos que delimita as 25% piores notas? E qual foi a “nota de corte” dos 10% primeiros colocados? Todas estas informações são importantes para aumentarmos o nível de conhecimento sobre este conjunto, e, em alguns conjuntos, informações mais significativas do que as medidas calculadas anteriormente. Estas estatísticas são as Separatrizes, cujo conceito é dado a seguir: Uma Separatriz é um valor que divide um conjunto numérico ordenado de forma crescente, em duas partes complementares.
As Separatrizes mais utilizadas são os Quartis e os Percentis, que são definidos a seguir: Quartis – um Quartil é um valor que divide o conjunto de valores da amostra em duas partes, sendo: Quartil
Nome
Definição
Q1
Primeiro Quartil
Divide os valores ordenados em duas partes: 25% da amostra está abaixo do Q1 , 75% acima do Q1 .
Q2
Segundo Quartil
Divide os valores ordenados em duas partes: 50% da amostra está abaixo do Q2 , 50% acima do Q2 .
Q3
Terceiro Quartil
Divide os valores ordenados em duas partes: 75% da amostra está abaixo do Q3 , 25% está acima do Q3 .
Veja a figura seguinte:
Figura 6.2: Quartis
106
A. F. Beraldo
Outra separatriz muito utilizada é o Percentil. Percentis também dividem a amostra em duas partes, segundo a seguinte proporção (percentis mais utilizados): Percentil
Nome
Definição
P10
Décimo Percentil
Divide os valores ordenados em duas partes: 10% da amostra está abaixo do P10 ,90% acima do P10 .
P90
Nonagésimo Percentil
Divide os valores ordenados em duas partes: 90% da amostra está abaixo do P90 , 10% acima do P90 .
Veja a figura abaixo:
Figura 6.3: Percentis Por analogia, podemos definir qualquer percentil a partir do conceito: Pn n-ésimo percentil: Divide a amostra ordenada em duas partes, n% da amostra abaixo do Pn
Comentários Você pode entender a palavra “quartil” como “quarta parte”, assim como “percentil” como “centésima parte”. Assim, o primeiro quartil, Q1 , pode ser considerado a “primeira quarta parte”, o segundo quartil Q2 , a “primeira mais a segunda quarta parte” e o Q3 como a “primeira mais a segunda mais a terceira quarta parte”. O décimo percentil P10 , seria as “dez primeiras centésimas partes”, e assim por diante.
A. F. Beraldo
107
6. Estatística em Grandes Conjuntos: Medidas de Posição
As separatrizes têm uma fórmula única: !
P OS(sep) − Fant SEP = LIsep + Ampsep fsep
(6.1)
Onde: SEP Valor da separatriz LIsep Limite inferior da classe que contém a separatriz P OS(sep) Posição da separatriz Fant Frequência acumulada da classe anterior que contém a separatriz fsep Frequência simples da classe que contém a separatriz Ampsep Amplitude da classe que contém a separatriz Pela fórmula acima, pode-se ver que o valor da separatriz depende da classe a que pertence, e da sua posição P OS(sep). As posições das principais separatrizes são as seguintes:
Separatriz
Posição
Q1
n/4
Q2
n/2
Q3
3n/4
P1 0
n/10
P9 0
9n/10
Onde n, tamanho da amostra, n =
108
P
f.
A. F. Beraldo
6.1 Cálculo de Quartis e Percentis
6.1
Cálculo de Quartis e Percentis
Vamos calcular o Q1 , primeiro quartil, das notas do concurso conforme a distribuição da Tabela 6.3, que reproduzimos a seguir: Tabela 6.3: Notas de um concurso Classes de Notas
f
0 —| 10
21
10 —| 20
36
20 —| 30
50
30 —| 40
30
40 —| 50
28
50 —| 60
26
60 —| 70
20
70 —| 80
17
80 —| 90
12
90 —| 100
10
Σ
250
O roteiro de cálculo é o seguinte: 1. Calcula-se a posição da separatriz:: a posição do Q1 é n/4, onde n é o tamanho do conjunto (ou do total de candidatos). O valor de n é 250, donde calculamos a posição do Q1 como 250/4 = 62, 5 P OS(Q1 ) = 62, 5 Atenção: não arredondar o valor da posição da separatriz – P OS(sep).
A. F. Beraldo
109
6. Estatística em Grandes Conjuntos: Medidas de Posição
2. Montamos a coluna das Frequências acumuladas (F): Tabela 6.4: Notas de um concurso Classes de Notas
f
F
0 —| 10
21
21
10 —| 20
36
57
20 —| 30
50
107
30 —| 40
30
137
40 —| 50
28
165
50 —| 60
26
191
60 —| 70
20
211
70 —| 80
17
228
80 —| 90
12
240
90 —| 100
10
250
Σ
250
3. Na coluna das frequências acumuladas (F), localizamos a primeira frequência acumulada cujo valor seja maior ou igual ao da posição da separatriz: Tabela 6.5: Notas de um concurso
110
A. F. Beraldo
6.1 Cálculo de Quartis e Percentis
4. Localizada a classe que contém a separatriz, calculamos o seu valor, aplicando na fórmula: !
P OS(sep) − Fant SEP = LIsep + Ampsep fsep Que, para o primeiro quartil, fica: !
Q1 = LIQ1
P OS(Q1 ) − Fant + AmpQ1 fQ1
Em que, aplicando os valores dos termos da expressão, temos: 62, 5 − 57 10 = 21, 1 Q1 = 20 + 50
Efetuando os cálculos, obtemos Q1 = 21, 1 anos. O mesmo procedimento pode ser aplicado para as demais separatrizes. Calculamos suas posições, sem arredondar os valores: Separatriz
Posição
Cálculo da posição
Posição da separatriz
Q2
n/2
250/2 = 125, 0
P OS(Q2 ) = 125, 0
Q3
3n/4
3 × 250/4 = 187, 5
P OS(Q3 ) = 187, 5
P10
n/10
250/10 = 25, 0
P OS(P10 ) = 25, 0
P90
9n/10
9 × 250/10 = 225
P OS(P90 ) = 225, 0
As classes que contém as separatrizes são: Tabela 6.6: Notas de um concurso
A. F. Beraldo
111
6. Estatística em Grandes Conjuntos: Medidas de Posição
Em seguida, calculamos os valores estimados das separatrizes. Inicialmente, os quartis Q2 e Q3 : 125 − 107 Q2 = 30 + 10 = 36, 0 30 187, 5 − 165 Q3 = 50 + 10 = 58, 6 26
Em seguida, os percentis P10 e P90 : 25 − 21 10 = 11, 1 36 225 − 211 = 70 + 10 = 78, 2 17
P10 = 10 + P90
Os valores das separatrizes, portanto, são os seguintes:
Separatriz
Valor
Q1
21,1
Q2
36,0
Q3
58,7
P1 0
11,1
P9 0
78,2
Assim, 10% dos candidatos conseguiram até 11,1 pontos no exame; 25% dos candidatos fizeram até 21,1 pontos; a metade dos candidatos conseguiu fazer até 36 pontos; 75% dos candidatos fizeram até 58,6 pontos, e 90% dos candidatos fizeram até 78,2 pontos. Veja a ilustração a seguir:
112
A. F. Beraldo
6.1 Cรกlculo de Quartis e Percentis
Figura 6.4: Quartis e Percentis do conjunto
A. F. Beraldo
113
6. Estatística em Grandes Conjuntos: Medidas de Posição
6.2
Determinação Gráfica das Separatrizes
Utilizando o polígono de frequências acumuladas temos outra maneira de localizar a posição e o valor de separatrizes. Veja a seguir: No polígono de frequência acumulada a seguir, temos dois eixos verticais. O primeiro, à esquerda, contém as frequências acumuladas. O segundo eixo, à direita, é a divisão percentual da população acumulada – o que pode ser entendido como percentis (divisão por 100). Para se determinar o Q2 , por exemplo, procura-se, no eixo da direita, o valor de 50%, que é a posição do Q2 :
Figura 6.5: Determinação gráfica do Q2 A partir da marca “50%” no eixo das F r, traçamos uma reta A que encontra a curva (a ogiva do polígono de frequências acumuladas) em P.
114
A. F. Beraldo
6.2 Determinação Gráfica das Separatrizes
Figura 6.6: Determinação gráfica do Q2 , ou “mediana” Podemos ver que o valor determinado graficamente está bem próximo ao valor calculado do Q2 (36,0). De forma análoga, determinamos os valores do Q1 e do Q3 , a partir das posições 25% e 75%. Veja a seguir:
A. F. Beraldo
115
6. Estatística em Grandes Conjuntos: Medidas de Posição
Figura 6.7: Determinação dos quartis (Q1 e Q3 )
116
A. F. Beraldo
6.2 Determinação Gráfica das Separatrizes
Os passos foram os seguintes: • A partir do eixo vertical à direita (Fr) e das posições percentuais das separatrizes (25% e 75%, respectivamente), traçamos linhas paralelas ao eixo horizontal do gráfico; • Estas linhas encontram a ogiva nos pontos A e B; • A partir dos pontos A e B, traçamos outras retas verticais, até o eixo das classes (eixo horizontal). Onde estas retas encontrarem este eixo está os valores do Q1 e Q3 . A seguir, a determinação gráfica das separatrizes para os dados deste exemplo:
Figura 6.8: Separatrizes determinadas graficamente No exemplo acima, localizamos a posição e o valor de diversas separatrizes, utilizando o método descrito anteriormente. É claro que a precisão da determinação do valor da A. F. Beraldo
117
6. Estatística em Grandes Conjuntos: Medidas de Posição
separatriz depende muito da acuidade do desenho e do traçado das linhas. Embora não se consiga uma precisão absoluta, esta determinação gráfica fornece uma boa ideia dos valores.
6.3
Determinação Gráfica de intervalos
Na Ogiva de Galton encontramos outro recurso muito utilizado: a determinação gráfica de intervalos. Por exemplo, neste conjunto que estamos estudando, qual será a quantidade de candidatos que obteve notas abaixo de 45? E o número de candidatos com notas acima de 85? Veja a seguir como determinar estes valores: Para determinar o número de candidatos com notas abaixo de 45: no eixo horizontal do gráfico, a partir do valor 45, trace uma reta vertical até encontrar a curva:
Figura 6.9: Determinação Gráfica de intervalos
118
A. F. Beraldo
6.3 Determinação Gráfica de intervalos
Em seguida, pelo ponto P, trace uma reta paralela ao eixo horizontal:
Figura 6.10: Determinação Gráfica de intervalos Os valores encontrados são, aproximadamente, 148 candidatos, equivalentes a aproximadamente 59% do total.
A. F. Beraldo
119
6. Estatística em Grandes Conjuntos: Medidas de Posição
E quantos candidatos tiraram notas acima de 85? Primeiro, utilizando o mesmo método, encontre o número de candidatos com notas abaixo de 85:
Figura 6.11: Determinação Gráfica de intervalos São, aproximadamente, 235 candidatos, cerca de 94% do total. Então, o número de candidatos com notas acima de 85 é igual a 250-235, ou seja, 15 candidatos.
120
A. F. Beraldo
Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
7 7.1
Simetria e Assimetria
As Distribuições de Frequências podem ser analisadas também em relação à sua simetria, que pode ser entendida como a comparação da densidade de frequência entre as duas partes, quando dividimos a distribuição pela média. Seja, por exemplo, a distribuição a seguir: Tabela 7.1: Distribuição de Frequências
A. F. Beraldo
Classes
f
00 —| 10
12
10 —| 20
18
20 —| 30
25
30 —| 40
15
40 —| 50
8
50 —| 60
5
60 —| 70
3
70 —| 80
2
Σ
88
121
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
O Histograma de frequência correspondente é o seguinte:
Figura 7.1: Histograma A média da distribuição é X = 28. Se dividirmos a distribuição em duas partes, a primeira abaixo da média e a segunda acima da média, podemos considerar a distribuição desta forma: Tabela 7.2: Notas de um concurso
Temos, portanto, uma densidade de frequência maior na parte anterior à média. Ditos de outra forma existem mais elementos, na amostra, com valores inferiores à média. Veja a figura a seguir:
122
A. F. Beraldo
7.1 Simetria e Assimetria
Figura 7.2: Histograma Nesta situação diz-se que a distribuição é assimétrica positiva (mais elementos amostrais inferiores à média). Numa situação oposta, com mais elementos amostrais superiores à média, diremos que a distribuição é assimétrica negativa. Podemos ter uma situação de equilíbrio, com o mesmo número de elementos amostrais acima e abaixo da média: é um caso de simetria.
A. F. Beraldo
123
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
Comentários
Figura 7.3: Histograma de distribuição simétrica Você pode fazer uma analogia entre a assimetria de uma distribuição e o equilíbrio ou desequilíbrio das densidades de freqüência representadas pelas barras do histograma da distribuição. Na figura 7.3, acima, temos uma distribuição simétrica, que equilibrase perfeitamente sobre um balanço, sem pender para nenhum dos lados. As massas se distribuem igualmente nos lados direito e esquerdo do histograma, simétricas em relação à média.
Figura 7.4: Histograma de distribuição assimétrica positiva Na figura 7.4, temos uma distribuição assimétrica positiva. O histograma “pesa” mais do lado esquerdo do balanço, e causa um desequilíbrio, representado pela seta.
124
A. F. Beraldo
7.1 Simetria e Assimetria
Figura 7.5: Histograma de distribuição assimétrica negativa Ocorre o contrário, na 7.5. As massas estão mais “pesadas” na direita do histograma, e o desequilíbrio é indicado pela seta. Temos então uma distribuição assimétrica negativa. Na prática, para sabermos a assimetria da distribuição, verificamos o sinal da seguinte diferença:
f Sinal(Assimetria) = X − X
(7.1)
As situações que podemos encontrar são as seguintes:
f>0 X −X
Média maior que a mediana
Assimetria positiva
f=0 X −X
Média igual à mediana
Simetria
f<0 X −X
Média menor que a mediana
Assimetria negativa
As situações são ilustradas nas figuras a seguir (utilizamos os pontos médios das classes para a construção dos polígonos de frequência):
A. F. Beraldo
125
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
Figura 7.6: Assimetria Positiva (média maior que mediana)
Figura 7.7: Assimetria Negativa (média menor que mediana)
Figura 7.8: Simetria (média igual à mediana)
126
A. F. Beraldo
7.1 Simetria e Assimetria
No caso de simetria, há uma coincidência entre média, moda e mediana. Para distribuições unimodais, fortemente assimétricas, temos as seguintes relações entre as Medidas de Tendência Central:
c<X f<X Figura 7.9: Distribuição assimétrica positiva: X
c>X f>X Figura 7.10: Distribuição assimétrica negativa: X
A. F. Beraldo
127
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
7.2
Medidas de Assimetria
A assimetria de uma distribuição pode ser medida, através de uma estatística chamada coeficiente de assimetria, CA. Existem várias fórmulas para o seu cálculo. Na que adotaremos nesta apostila, o CA é chamado segundo coeficiente de assimetria de Pearson, e a fórmula é a seguinte:
CA =
f 3 X −X
(7.2)
s
O resultado é adimensional e assume o valor zero quando a distribuição é simétrica = X).Esta fórmula permite comparar duas distribuições, verificando qual é mais assimétrica. O CA apresenta, mais comumente, valores entre ±1. Valores máximos são: f (X
−3 ≤ CA ≤ 3 Outra fórmula para calcular a assimetria de uma distribuição é dada por:
α3 =
m3 = s3
Pn 1
xi − X
n − 1 s3
3
(7.3)
Onde α3 (alfa-três) é o coeficiente de assimetria, m3 é o Momento Centrado na média de terceira ordem e s3 é o cubo do desvio padrão. Não se preocupe, por enquanto, com o que seja este “momento de 3a ordem” - momentos são explicados na apostila Estatística VI - Tópicos Especiais em Estatística.
128
A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.1. Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14
f 3 7 12 17 27 24 20 110
Figura 7.11: Histograma
Média = X =
P
f xi n
=
970 110
= 8, 82 ∼ = 8, 8
Mediana = ?
f = P os X
n 2
=
110 2
= 55
Classe da mediana => 8 |– 10 A. F. Beraldo
129
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
f = LI + X e X
f − F ant P os X
f
Amp
e X
55 − 39 ×2 27 16 =8+ (2) = 8 + 1, 185 = 9, 185 ∼ = 9, 2 27
=8+
Cálculo do desvio padrão
Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14
f 3 7 12 17 27 24 20 110
d2 61,1 33,9 14,6 3,3 0,0 4,8 17,5
d −7, 8 −5, 8 −3, 8 −1, 8 0,2 2,2 4,2
x 1 3 5 7 9 11 13
f d2 183,4 237,0 174,9 56,2 0,9 114,2 349,8 1116,4 2 s = 10, 1 s = 3, 2 CV = 36, 1%
Cálculo do Coeficiente de Assimetria
CA =
130
f 3 X −X
S
=
3 8, 8 − 9, 2 3, 2
=
3 − 0, 4 3, 2
= −0, 375
A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.2.
Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14
f 3 5 9 17 20 24 32 110
Figura 7.12: Histograma
Média = X =
P
f xi n
=
1042 110
= 9, 473 ∼ = 9, 5
Mediana = ?
f = P os X
n 2
=
110 2
= 55
Classe da mediana => 10 |– 12 A. F. Beraldo
131
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
f = LI + X e X
f − F ant P os X
f
Amp
e X
55 − 54 ×2 24 1 = 10 + (2) = 10 + 0, 083 = 10, 083 ∼ = 10, 1 24
= 10 +
Cálculo do desvio padrão
Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14
f 3 5 9 17 20 24 32 110
d2 71,8 41,9 20,0 6,1 0,2 2,3 12,4
d −8, 5 −6, 5 −4, 5 −2, 5 −0, 5 1,5 3,5
x 1 3 5 7 9 11 13
f d2 215,4 209,5 180,0 103,9 4,5 56,0 398,1 1167,4 2 s = 10, 6 s = 3, 3 CV = 34, 4%
Cálculo do Coeficiente de Assimetria
CA =
f 3 X −X
S
=
3 9, 5 − 10, 1 3, 3
=
3 − 0, 6 3, 3
= −0, 545
Concluímos, portanto, que sendo as duas distribuições assimétricas negativas, a DF 8.2 é mais assimétrica do que a DF 8.1.
132
A. F. Beraldo
7.2 Medidas de Assimetria
Exemplo 7.3.
Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14
F 6 16 20 26 20 16 6 110
Figura 7.13: Histograma
Pelo próprio formato do histograma, podemos perceber a simetria do conjunto. De fato, calculando as medidas média e mediana, temos: Média = X =
P
f xi n
=
770 110
= 7, 0
Mediana = ?
f = P os X
n 2
=
110 2
= 55
Classe da mediana => 6 |– 8 A. F. Beraldo
133
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
f = LI + X e X
f − F ant P os X
f
Amp
e X
55 − 42 ×2 =6+ 26 13 =6+ (2) = 6 + 1, 0 = 7, 0 26
CA =
f 3 X −X
S
=
3 7, 0 − 7, 0 s
=
3 0 s
= 0, 0
O que confirma nossa percepção. Exemplo 7.4. Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14
f 25 20 18 16 15 10 6 110
Figura 7.14: Histograma 134
A. F. Beraldo
7.3 Curtose
Média =X =
P
f xi n
=
110 2
= 55
610 110
= 5, 545 ∼ = 5, 5
Mediana = ?
f = P os X
n 2
=
Classe da mediana => 4 |– 6
f = LI + X e X
f − F ant P os X
f
Amp
e X
55 − 45 =4+ ×2 18 10 (2) = 4 + 1, 1111 = 5, 1111 ∼ =4+ = 5, 1 18
Cálculo das Medidas de Dispersão:
Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14
f 25 20 18 16 15 10 6 110
d2 20,7 6,5 0,3 2,1 11,9 29,8 55,6
d −4, 5 −2, 5 −0, 5 1, 5 3, 5 5,5 7,5
x 1 3 5 7 9 11 13
f d2 516,5 129,6 5,4 33,9 179,0 297,5 333,4 1495,3 2 s = 13, 6 s = 3, 7 CV = 66, 5%
Cálculo do coeficiente de assimetria
CA =
7.3
f 3 X −X
S
=
3 5, 5 − 5, 1 3, 7
=
3 0, 4 3, 7
= 0, 32
Curtose
Curtose é o mesmo que “achatamento” de uma distribuição, representada pelo seu polígono de Frequência. As distribuições, quanto à Curtose, podem ser leptocúrticas, mesocúrticas ou platicúrticas, como se vê na figura a seguir: A. F. Beraldo
135
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
Figura 7.15: Curtose Como se pode ver na figura acima, dos polígonos de Frequência que representam três distribuições, a mais achatada é a platicúrtica (do grego platys, largo, achatado). A menos achatada, ou mais pontiaguda é a leptocúrtica (do grego leptos, fino, delgado). Entre as duas, a distribuição mesocúrtica. A Curtose de uma distribuição também pode ser medida, através da estatística Coeficiente de Curtose, CC. Uma de suas fórmulas é a empírica Q3 − Q1 CC = 2 P90 − P10
(7.4)
Onde Q3 e Q1 são quartis e P90 e P10 são percentis. O CC também é adimensional, sendo que o valor de CC = 0,263 identifica uma distribuição mesocúrtica. Valores de CC menores que 0,263 identificam distribuições leptocúrticas; valores de CC maiores que 0,263 identificam distribuições platicúrticas. Uma fórmula mais sofisticada para o cálculo do Coeficiente de Curtose de uma distribuição é dada por:
α4 =
136
m4 = s4
Pn 1
xi − X
n − 1 s4
4
(7.5)
A. F. Beraldo
7.3 Curtose
Onde α4 (alfa-quatro) é o Coeficiente de Curtose, m4 é o Momento de Quarta Ordem e s é o desvio padrão, elevado à quarta potência. Como já foi dito, os momentos serão explicados na apostila Estatística VI. Veja os exemplos a seguir: 4
Exemplo 7.5. Sejam as três distribuições de Frequência a seguir, calculadas sobre os conjuntos A, B e C: Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14 Σ
A. F. Beraldo
fA 12 20 25 31 25 20 12 145
fB 5 18 28 43 28 18 5 145
fC 1 3 12 113 12 3 1 145
137
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
Os polígonos de Frequência das distribuições são os seguintes:
Figura 7.16: Polígonos de frequência As posições das separatrizes são:
Separatriz
Posição
Posição
P10
P os(P10 ) =
n 10
14,5
Q1
P os(Q1 ) =
n 4
36,25
Q3
P os(Q3 ) =
3n 4
108,75
P90
P os(P90 ) =
9n 10
130,5
Montando as colunas das Frequências acumuladas:
Classes 0 —| 2 2 —| 4 4 —| 6 6 —| 8 8 —| 10 10 —| 12 12 —| 14 Σ
138
fA 12 20 25 31 25 20 12 145
FA 12 32 57 88 113 133 145
fB 5 18 28 43 28 18 5 145
FB 5 23 51 94 122 140 145
fC 1 3 12 113 12 3 1 145
FC 1 4 16 129 141 144 145
A. F. Beraldo
7.3 Curtose
Cálculo das Separatrizes: Conjunto A 14, 5 − 12 =2+ × 2 = 2, 25 20
P10
36, 25 − 32 × 2 = 4, 34 Q1 = 4 + 25
108, 75 − 88 Q3 = 8 + × 2 = 9, 66 25
130, 5 − 113 × 2 = 11, 75 20
P90 = 10 +
Conjunto B 14, 5 − 5 =2+ × 2 = 3, 1 18
P10
36, 25 − 23 × 2 = 4, 95 Q1 = 4 + 28
Q3 = 8 +
108, 75 − 94 × 2 = 9, 05 28
P90 = 10 +
130, 5 − 122 × 2 = 10, 9 18
Conjunto C 14, 5 − 4 × 2 = 5, 75 =4+ 12
P10
Q1 = 6 +
Q3 = 6 + A. F. Beraldo
36, 25 − 16 × 2 = 6, 4 113
108, 75 − 16 × 2 = 7, 6 113
139
7. Estatística em Grandes Conjuntos: Medidas de Assimetria e Curtose
130, 5 − 129 =8+ × 2 = 8, 25 12
P90
Coeficientes de Curtose Conjunto A CC =
9, 66 − 4, 34 Q3 − Q1 = = 0, 28 Platicúrtica 2(P90 − P10 ) 2(11, 75 − 2, 25)
Conjunto B
CC =
9, 05 − 4, 95 Q3 − Q1 = = 0, 263 Mesocúrtica 2(P90 − P10 ) 2(10, 9 − 3, 1)
Conjunto C
CC =
140
Q3 − Q1 7, 6 − 6, 4 = = 0, 24 Leptocúrtica 2(P90 − P10 ) 2(8, 25 − 5, 75)
A. F. Beraldo
Introdução à Análise Exploratória de Dados
8 8.1
Fundamentos da Análise Exploratória
A Análise Exploratória de Dados é um conjunto de técnicas estatísticas de descrição de conjuntos e teste de hipóteses1 ,elaborada, entre outros, por John Tukey, em 1977 daí a associação que se faz com seu nome e esta parte da Estatística. A Estatística Descritiva, ao lidar com os elementos amostrais, procura separar a amostra em faixas, ou classes, e contar os valores que se encontram em cada classe, montando as tabelas de Distribuição de Frequências como foi estudado nos Capítulos 4 a 7. A partir da elaboração desta tabela, os dados amostrais originais são “abandonados”, e passamos a estudar a amostra a partir de sua “imagem organizada”, a Distribuição de Frequências. Esta técnica, apesar de bastante cômoda e eficiente, de alguma forma deixa escapar informações importantes que, numa análise mais aprofundada, deveriam auxiliar em nossas conclusões. A proposta de Tukey, de larga utilização na atualidade, supre estas deficiências. A Análise Exploratória de Dados, na parte da descrição de conjuntos, tem as seguintes características:
1. Os dados amostrais coletados não são abandonados, mas sim dispostos em uma nova forma de organização, chamada Diagrama Ramo-Folha. Este diagrama oferece muitas vantagens, como: a Cálculo preciso das modas, medianas e Medidas de Posição reais, sem necessitar de fórmulas empíricas; b Visualização imediata do histograma de Frequências da distribuição, apreendendo mais rapidamente as situações de Assimetria e Curtose; c Maior clareza na redistribuição de dados nos intervalos de classes. 2. Há uma ênfase na apresentação visual das informações, com a utilização do BoxPlot2 . 1
Veja a apostila Estatística III Utilizamos aqui a palavra na língua inglesa, uma vez que sua tradução para “Gráfico-Caixa”, infelizmente, não conseguiu entrar para o jargão técnico da Estatística em nosso país. 2
A. F. Beraldo
141
8. Introdução à Análise Exploratória de Dados
3. O enfoque é sobre a mediana e as Medidas de Posição (quartis e percentis), em detrimento da média, como Medidas de Tendência Central. 4. Como Medidas de Dispersão, utilizamos mais a distância entre quartis, e outras, que serão definidas neste capítulo, ao invés da variância e do desvio padrão. É claro que não deve deixar de lado as técnicas tradicionais da Estatística Descritiva, que continuam valiosas e indispensáveis para o entendimento do conjunto, principalmente se este for de tamanho muito grande, com centenas e centenas de elementos. Consideramos a Análise Exploratória um formidável avanço na Estatística, e você deve estar preparado para se valer de todas as técnicas que puder dominar. Estudamos esta nova técnica através do exemplo seguinte: Para estudar a distribuição de idades dos moradores de um bairro, foi feita uma amostragem aleatória de 100 pessoas, e os resultados estão neste rol:
Figura 8.1: Rol
142
A. F. Beraldo
8.1 Fundamentos da Análise Exploratória
Se fôssemos tratar esta coleção de dados com técnicas da Estatística Descritiva, iríamos dividir a amostra em classes, estabelecer os critérios de inclusão, computar as ocorrências e montar a tabela da distribuição de Frequências. Não é o que se faz na Análise Exploratória. Aqui, o processo é o seguinte: 1. Verifica-se o tipo de números da distribuição: se são valores discretos ou contínuos, se são expressos em dezenas, centenas ou milhares, se há decimais, etc. No nosso exemplo, são variáveis quantitativas não-contínuas, ou discretas (idade das pessoas), podendo ser tratadas como dezenas: dezena 01, dezena 34, dezena 86, etc.; . 2. Identificamos o menor e o maior valor da distribuição. No exemplo, a menor idade encontrada foi 1, a maior foi 94. 3. A partir dessas considerações, montamos a seguinte “tabela”:
Figura 8.2: Diagrama Ramo-Folha Estes valores 0, 10, 20, etc. significam o seguinte: na linha “0”, colocaremos as idades que vão de 0 a 9 anos; na linha “10”, colocaremos as idades de 10 a 19, e assim por diante. Este é a construção de um Diagrama Ramo-Folha, e estes valores 0, 10, 20, etc., são os Ramos.
A. F. Beraldo
143
8. Introdução à Análise Exploratória de Dados
4. Nas linhas dos ramos, colocaremos as idades constantes da amostra - não a Frequência, mas o próprio valor do conjunto, da seguinte forma: ao encontrarmos na amostra a idade 45, iremos escrever o valor 5 no ramo 40, uma vez que 45 é igual a 40+5. Se encontramos a idade 18, escrevemos no ramo 10 o valor 8 (18 = 10 + 8), e assim por diante. Estes valores são chamados de folhas, estando ligados aos “ramos”. O diagrama Ramo-Folha fica desta maneira:
Figura 8.3: Diagrama Ramo-Folha
Os dados dispostos no Diagrama Ramo-Folha são dados reais, os mesmos existentes na amostra. Não há a necessidade de cálculo do ponto médio, nem de supor uma linearidade dos dados dentro das classes. Outra vantagem do diagrama é, como dissemos, a visualização imediata do histograma, cujas colunas são formadas pelas “folhas”. Veja a figura a seguir:
Figura 8.4: Diagrama Ramo-Folha
Na Análise Exploratória de Dados não há preocupação com médias ou com as Medidas de Dispersão em torno da média, como a variância e o desvio padrão. As medidas mais importantes são as medidas de posição - os quartis, que serão calculadas a seguir. 144
A. F. Beraldo
8.2 Determinação dos Quartis:
8.2
Determinação dos Quartis:
Os quartis não são calculados, isto é, não há uma fórmula empírica para seu cálculo, como foi feito no Capítulo 7. Os quartis são localizados no diagrama ramo-folha, a partir da suas posições, que são dadas pelas expressões:
Quartil
Posição
Primeiro Quartil
P OS(Q1 ) =
Segundo Quartil
P OS(Q2 ) =
Terceiro Quartil
P OS(Q3 ) =
n+1 4 n+1
2
3 n+1 4
Nas fórmulas acima, n é o tamnho do conjunto. No exemplo que estamos estudando, as posições serão: Primeiro Quartil:
P OS(Q1 ) =
n+1
=
4
101 = 25, 25 4
Segundo Quartil: P OS(Q2 ) =
n+1 101 = = 50, 5 2 2
Terceiro Quartil:
P OS(Q3 ) =
3 n+1 4
=
303 = 75, 75 4
As posições são fracionárias. Isto indica que tanto o Q1 quanto o Q2 e o Q3 serão as médias dos valores amostrais ocupando os postos anterior e posterior aos postos calculados3 . Veja a figura a seguir:
3
Notar a preocupação no cálculo de valores reais. Define-se exatamente a posição do primeiro quartil como a metade da distância entre a posição do primeiro elemento amostral (1o ) e a posição da mediana que, por definição, ocupa a posição central do conjunto ordenado. Da mesma forma, a posição do terceiro quartil é a metade da distância entre a posição da mediana e a posição do último elemento amostral.
A. F. Beraldo
145
8. Introdução à Análise Exploratória de Dados
Figura 8.5: Quartis Calculando a média dos valores, temos: 17 + 17 = 17, 0 2 31 + 32 Q2 = = 31, 5 2 50 + 50 Q3 = = 50, 0 2 Q1 =
Portanto, os valores das separatrizes são:
Q1 = 17, 0
f = 31, 5 Q2 = X
Q3 = 50, 0 Estes valores serão necessários para a construção do Box-Plot, um gráfico específico para este tipo de análise.
146
A. F. Beraldo
8.2 Determinação dos Quartis:
Comentários 1. Você pode entender melhor o cálculo das Separatrizes se visualizar a distribuição desta forma: Imagine que os valores deste exemplo estejam colocados em ordem crescente:
Figura 8.6: Postos A mediana, tal como foi calculada, ocupa o 50,5o lugar, e tem o valor de 31,5. Tanto esta posição quanto este valor da mediana “não existem”, isto é são arbitrados em função da definição da mediana - valor que ocupa a posição central de um conjunto ordenado. A mediana, portanto, divide o conjunto em dois subconjuntos, cada um com 50 elementos:
Figura 8.7: Postos Se você imaginar que o Q1 seja uma espécie de “mediana” do subconjunto de valores abaixo da mediana, e que o Q3 seja a “mediana” do subconjunto de valores acima da mediana, as posições do Q1 e do Q3 são facilmente deduzidas:
n+1
Para o Q1, temos: P OS(Q1 ) = = 50+1 = 25, 5 , ou seja, a posição do 2 2 Q1 é também arbitrada, é a média dos valores que ocupam o 25o e o 26o lugar: = 17. Q1 = 17+17 2 De forma análoga, encontramos a P OS(Q3 ), igual a 75,5. E o seu valor, Q3 = 50. 2. Pelo raciocínio acima, você pode deduzir que: Quando o conjunto possui um tamanho n par, as posições da mediana, do Q1 e do Q2 são arbitradas. A. F. Beraldo
147
8. Introdução à Análise Exploratória de Dados
Quando o tamanho n for ímpar, a posição mediana é “real” (e não arbitrada), uma vez que n+1 é inteiro e par, se n é ímpar. Da mesma forma, as posições dos quartis 2 serão “reais”.
8.3
Cálculo das Cercas e o Box-Plot
Para completar a descrição do conjunto, e para o desenho do Box-Plot, precisaremos calcular mais algumas medidas estatísticas
AIQ: Amplitude interquartílica (Distância entre quartis) = Q3 − Q1 CEI: Cerca externa inferior = Q1 − 3AIQ CII: Cerca interna inferior = Q1 − 1, 5AIQ CIS: Cerca interna superior = Q3 + 1, 5AIQ CES: Cerca externa superior = Q3 + 3AIQ
No exemplo que estudamos, temos: AIQ = 50,0 - 17,0 = 33,0 anos CII = 17 - 1,5x33 = -32,5, ou seja, 0 (já que não existe idade negativa) CEI = 17 - 3x33 = -82, ou seja, 0. CIS = 50 + 1,5x33 = 99,5 anos CES = 50 + 3x33 = 149 anos Precisaremos, também, das seguintes medidas: VAI: Valor adjacente inferior : é o menor valor do conjunto, que ainda é maior ou igual à CII = 1 ano VAS: Valor adjacente superior: é o maior valor da amostra, que ainda é menor ou igual à CIS = 94 anos Verificamos se há valores discrepantes. Estes são os valores amostrais que estão entre as cercas. No exemplo estudado, não há valores discrepantes. 148
A. F. Beraldo
8.3 Cálculo das Cercas e o Box-Plot
Verificamos se há valores mais que discrepantes (outliers): são os valores amostrais abaixo da CEI ou acima da CES. Em nosso exemplo não há valores mais que discrepantes. (Veja exemplo comentado) Calculados estes valores, traçamos o box-plot, que tem o seguinte aspecto:
Figura 8.8: Box-Plot A “caixa” é limitada pelo Q1 e pelo Q3 . A linha dentro caixa é a mediana (Q2 ). Os traços, superior e inferior, são ligados à caixa por uma linha vertical - estes traços são as marcas dos valores adjacentes (VAI e VAS). Se houvessem valores discrepantes ou mais que discrepantes, seriam representados individualmente por pontos acima e abaixo das marcas de valores adjacentes (veja o exemplo 8.1). Com estas medidas, conseguimos descrever a disposição dos dados da amostra. A tendência central é medida pela mediana e os quartis. A Amplitude Interquartílica (AIQ) é a distância entre Q1 e Q3 , e indica a dispersão da amostra, na região central da distribuição - contém 50% dos valores do conjunto. Divide-se em duas regiões: a primeira entre Q1 e a mediana, a segunda entre a mediana e Q3 . Comparando-se a área destas duas regiões (a área do “box” - retângulo) temos outra boa indicação da dispersão. Esta ideia é complementada com a verificação da existência de valores discrepantes e muito discrepantes (outliers). A. F. Beraldo
149
8. Introdução à Análise Exploratória de Dados
Valores discrepantes são os que pertencem à região entre a CEI e o VAI, ou entre a VAS e a CES. Valores mais que discrepantes estão abaixo da CEI ou acima da CES. (acima da distância Q3 + 3AIQ, ou abaixo de Q1 - 3AIQ). As regiões (intervalos de dados dentro do conjunto) são as seguintes
Figura 8.9: Regiões do Box-Plot
• Região Central: Entre o Q1 e o Q3 . • Região dos Dados Regulares: Entre o VAI e o VAS. • Região dos Dados Discrepantes: Entre a CEI e o VAI , e entre o VAS e a CES • Região dos Dados mais que discrepantes: abaixo da CEI ou acima da CES
150
A. F. Beraldo
8.3 Cálculo das Cercas e o Box-Plot
As informações principais fornecidas pelo box plot são as seguintes:
Figura 8.10: Elementos do Box-Plot Comentários Os sinais que representam Valores Discrepantes ou mais que Discrepantes variam muito, de acordo com o software utilizado. Nesta apostila, adotamos a seguinte convenção: + •
Valores Discrepantes (entre o VAI e a CEI, e entre o VAS e a CES) Valores mais que Discrepantes (abaixo da CEI e acima da CES).
A. F. Beraldo
151
8. Introdução à Análise Exploratória de Dados
Exemplo 8.1. Seja o conjunto a seguir:
Figura 8.11: Diagrama Ramo-Folha O diagrama Ramo-Folha é o seguinte:
Figura 8.12: Diagrama Ramo-Folha As posições dos quartis são as seguintes: Primeiro Quartil: P os(Q1 ) =
99 n+1 = = 24, 75 4 4
P os(Q2 ) =
n+1 99 = = 49, 5 2 2
Segundo Quartil:
Terceiro Quartil: P os(Q3 ) =
152
3(n + 1) 297 = = 74, 25 4 4
A. F. Beraldo
8.3 Cálculo das Cercas e o Box-Plot
Localizando os quartis no diagrama Ramo-Folha, temos:
Figura 8.13: Quartis no Diagrama Ramo-Folha Portanto, os valores dos Quartis e das demais estatísticas são:
Q1 = 39, 0
f = 49, 0 Q2 = X
Q3 = 59, 0
AIQ
Cerca Externa Inferior
Q3 − Q1 = 59, 0 − 39, 0 = 20, 0
CEI
Cerca Interna Inferior
Q1 − 3AIQ = 39, 0 − 3 × 20 = 39, 0 − 60 = −21
CII
Cerca Interna Superior
Q1 − 1, 5AIQ = 39, 0 − 1, 5 × 20 = 39, 0 − 30, 0 = 9, 0
CIS
Cerca Externa Superior
Q3 + 1, 5AIQ = 59, 0 + 1, 5 × 20 = 59, 0 + 30, 0 = 89, 0
CES
Cerca Externa Superior
Q3 + 3AIQ = 59, 0 + 3 × 20 = 59, 0 + 60, 0 = 119, 0
VAI
Valor adjacente inferior
12
VAS
Valor adjacente superior
87
Valores discrepantes inferiores
1
Valores discrepantes superiores
91, 92, 95 e 100
Outliers
A. F. Beraldo
153
8. Introdução à Análise Exploratória de Dados
O Box-Plot é o seguinte:
Figura 8.14: Box-Plot Notar o sinal “+” simbolizando os valores discrepantes (outliers).
154
A. F. Beraldo
Diagramação em LATEX, composta em Latin Modern. Versão 3 — 2013 Gerado em 22 de outubro de 2013.