Estatstica

Page 1

Estatística Notas de apoio às aulas

Marco Costa 2011/12

!



i

Índice Prefácio .............................................................................................................................. iii 1 Variáveis e Informação Estatística ................................................................................ 1 1.1 Dados e Informação .............................................................................................. 2 1.2 Estatística Descritiva versus Estatística Inferencial ............................................... 2 1.3 Tipos de Variáveis e Escalas de Medidas ............................................................... 4 1.4 Fontes de Dados, Estudos Estatísticos e Inquéritos .............................................. 6 2 Organização e Descrição de Dados ............................................................................... 9 2.1 Tabelas de Frequências e Tabelas de Contingência ............................................ 10 2.2 Estatísticas ........................................................................................................... 12 2.3 Estatísticas para Dados Agrupados ...................................................................... 17 2.4 Representações Gráficas ..................................................................................... 19 3 Variáveis Aleatórias e Distribuições de Probabilidade ............................................... 23 3.1 Distribuição e Parâmetros de uma Variável Aleatória ......................................... 24 3.2 Modelo Normal ................................................................................................... 25 3.3 Teorema Limite Central ....................................................................................... 29 4 Estimação Pontual e Intervalar ................................................................................... 31 4.1 Estimadores e Estimativas ................................................................................... 31 4.2 Intervalos de Confiança: Conceito e Nível de Confiança ..................................... 34 4.3 Intervalos de Confiança para a Média Populacional ........................................... 35 4.3.1 Intervalo Aproximado com Base numa Grande Amostra ............................. 35 4.3.2 Intervalo para a Média de uma População Normal com Base numa Amostra Pequena .................................................................................................................... 36 4.4 Intervalo de Confiança para a Variância Populacional ........................................ 38 4.5 Intervalo de Confiança para uma Proporção ....................................................... 40 5 Introdução à Amostragem .......................................................................................... 41 5.1 Planos de Amostragem ........................................................................................ 41 5.2 Determinação da Dimensão da Amostra ............................................................. 43 5.2.1 Dimensão da Amostra para Estimar a Média de uma População ................ 44

Marco Costa, ESTGA2012


ii

5.2.2 Dimensão da Amostra para Estimar uma Proporção ................................... 44 6 Testes de hipóteses .................................................................................................... 47 6.1 Hipóteses e Valor-­‐p ............................................................................................. 47 6.2 Testes de Hipóteses para a Média de uma População ........................................ 50 6.3 Teste de Hipóteses para a Variância de uma População ..................................... 51 6.4 Teste de Hipóteses para uma Proporção ............................................................ 52 6.5 Teste de Hipóteses para a igualdade de Duas Variâncias .................................... 52 6.6 Teste de Hipóteses para a Igualdade de Duas Médias ........................................ 53 6.6.1 Teste Z .......................................................................................................... 53 6.6.2 Teste t e Teste t modificado ......................................................................... 54 6.6.3 Teste t para amostras emparelhadas ........................................................... 55 6.7 Teste de Hipóteses para a Comparação de Duas Proporções ............................. 56 7 Associação e Correlação ............................................................................................. 57 7.1 Teste do Qui-­‐Quadrado para a Independência de Dois Atributos ...................... 57 7.2 Medidas de Associação Baseadas no Qui-­‐Quadrado .......................................... 59 7.3 Coeficiente de Correlação Linear de Pearson ...................................................... 61 7.4 Coeficiente de Correlação Ordinal de Spearman ................................................ 63 8 Regressão linear ......................................................................................................... 65 8.1 Modelos de regressão linear simples e múltipla ................................................. 66 8.2 Coeficiente de Determinação .............................................................................. 71 8.3 Inferência sobre os parâmetros de regressão ..................................................... 73 Bibliografia ........................................................................................................................ 77 Índice Remissivo ............................................................................................................... 79

Marco Costa, ESTGA2012


iii

Prefácio O presente texto foi elaborado para acompanhar a disciplina de Estatística das licenciaturas em Comércio, em Gestão Pública e Autárquica e em Gestão da Qualidade da Escola Superior de Tecnologia e Gestão de Águeda da Universidade de Aveiro. Esta edição não é uma versão acabada e pretende-­‐se que seja melhorada e atualizada com a experiência decorrente das aulas. Com estas notas não se pretende substituir a bibliografia, mas disponibilizar um texto de apoio contendo os principais conteúdos abordados na disciplina. Assim, este texto poderá não contemplar todo o programa da disciplina pelo que deverá ser complementado com a bibliografia recomendada. A análise estatística exige em grande medida a utilização de softwares como instrumentos de cálculo. Neste contexto, poderão ser adoptados vários softwares existentes, contudo, o Microsoft Excel e o PASW Statistics respondem às necessidades dos objetivos destes conteúdos. 13 de fevereiro de 2012. Marco Costa

Marco Costa, ESTGA2012



1 Variáveis e Informação Estatística O que entende por “Estatística”? A Estatística é a ciência que se preocupa com a recolha, organização e análise de dados. As técnicas estatísticas assentam na teoria da probabilidade. É muito comum, senão a generalidade, que os dados que se obtêm em ciências sociais e humanas apresentem grande variabilidade devida às diferenças entre os objetos medidos (o conceito de objecto é genérico neste contexto), e não apenas a possíveis imperfeições do processo de medição. Assim, a Estatística procura modelar a incerteza e a aleatoriedade de modo a explicar a ocorrência de eventos, estimar quantidades desconhecidas e, se for o caso, possibilitar a previsão de fenómenos futuros. O âmbito da aplicação das técnicas estatísticas é vasto. Realçamos a sua aplicação nas áreas da Económica e da Gestão, em particular, na pesquisa de mercado no contexto do Marketing, na avaliação de oportunidades de investimento e no apoio à tomada de decisão. O estudo de grandes bases de dados e de enormes quantidades de variáveis requer a utilização de softwares de apoio nas várias etapas da análise estatística. Existem vários softwares de estatística, uns mais generalistas, dispondo das ferramentas mais usuais, outros mais específicos para determinadas áreas. É de salientar um software de utilização livre como o software R, o pacote estatístico para ciências sociais PASW Statistics (Predictive Analytics SoftWare) anteriormente SPSS (Statistical Package for the Social Sciences) e a folha de cálculo como o Microsoft Excel.


2

1.1 Dados e Informação Genericamente a análise estatística tem por base um conjunto de dados. Podem ocorrer várias situações. A análise estatística pode ser motivada pela disponibilidade de dados com os quais se pretende perceber uma realidade ou com os quais pretendemos sustentar uma decisão futura. Os dados podem estar disponíveis através de bases de dados já existentes e de várias fontes ou resultarem de um processo de recolha, como por exemplo, através de inquéritos ou censos. Os conceitos de dados e de informação são por vezes confundidos. De facto, os dados são representações de factos ou conceitos de modo a que possam ser interpretados e processados de alguma forma, pelo ser humano ou por processos automáticos. Quando os dados são processados (organizados e ordenados), de modo a terem significado, isto é, produzem algum tipo de conhecimento adicional, estamos na presença de informação.

1.2 Estatística Descritiva versus Estatística Inferencial As técnicas estatísticas dividem-­‐se principalmente em dois grandes grupos: técnicas de estatística descritiva e técnicas de inferência estatística. Regra geral, uma análise ou tratamento estatístico de dados pode começar pela sua recolha, caso não estejam previamente disponíveis, depois a sua organização e apresentação para que estes sejam facilmente analisados e interpretados. A etapa da organização, sumarização e apresentação dos dados enquadra-­‐se no âmbito da Estatística Descritiva. Quando os dados disponíveis são apenas uma parte de um conjunto mais vasto e se pretende a partir destes estudar o conjunto mais alargado aplicam-­‐se técnicas da Estatística Inferencial. As abordagens descritiva e inferencial serão posteriormente desenvolvidas.

Análise Estatística

Estatística Descritiva

Estatística Inferencial

Processo de organizar, sumariar e apresentar os dados de forma rápida e de fácil interpretação

Conjunto de técnicas que incidem numa ou mais amostras para inferir características do população.

Ilustração 1-­‐1: Estatística descritiva versus estatística inferencial.

Marco Costa, ESTGA2012


3

Quando apenas temos acesso a uma parte do conjunto de dados que pretendemos analisar estamos na presença de uma amostra. Ao conjunto de todos os elementos que o investigador deseja investigar chamamos população ou universo. Na maior parte dos problemas pretende-­‐se estudar uma medida ou característica numérica que descreve de alguma forma a variável. A essa medida ou característica numérica da população chamamos parâmetro (por exemplo, a idade média dos alunos de uma turma). Note que consideramos que uma variável é uma característica da população que se pretende analisar e que pode ser caracterizada por um ou mais parâmetros. Sempre que possível, devemos estudar a população na sua totalidade, pois desta forma teremos um conhecimento e uma caracterização exatos desta, neste caso trata-­‐se de um censo. No entanto, nem sempre é possível estudar a população no seu todo, ou porque esta não é totalmente acessível, ou porque existem limitações de tempo ou económicas, principalmente se a população for muito numerosa. Nestes casos recorre-­‐se a amostras como meio de estudo da população. Qualquer medida ou grandeza obtida a partir de uma amostra designa-­‐se por estatística. Em princípio, uma estatística serve como uma estimativa do parâmetro (desconhecido) correspondente da população. 8956,!,/2:1-,!><"'=&! !"#$%&'()*+%,-(.//! *+,-./01-2!3-010456527!

8956,!,/2:1-,!;<""=*#7!

• "#! !! • $%! !! !! • "&!

• ""! • "'! • $%!

• "$! • ""!

!!• "'!

• ")!

• "(!

8956,!,/2:1-,!?<"#!

• "$!

Ilustração 1-­‐2: População versus amostras e paralelismo entre parâmetro versus estatística.

No exemplo anterior considera-­‐se uma população com 12 elementos, sendo que a média aritmética destes é igual a 22, isto é, podemos definir como parâmetro a média que neste caso é igual a 22. Imagine que não tínhamos acesso à população na totalidade. Por exemplo, se apenas tivéssemos disponíveis os elementos da amostra A, a estatística que usaríamos para tentar estimar a média da população seria a média aritmética dos elementos da amostra, neste caso, tem o valor de 22,(3). Analogamente se considerarmos as amostras B e C obteríamos como estimativas para a média da população 20,5 e 23, respetivamente.

Marco Costa, ESTGA2012


4

Repare que apesar de 22≈22,(3)≈20,5≈23, para cada amostra obtém-­‐se uma estimativa diferente do verdadeiro parâmetro populacional, embora esperemos que essas estimativas estejam próximas deste. Note que as diferenças verificadas nessas estimativas advêm da aleatoriedade associada à escolha dos elementos das amostras. Em princípio, cada amostra produz estatísticas diferentes. Se a análise estatística contempla técnicas da inferência estatística é extremamente importante que a(s) amostra(s) a estudar representem a população relativamente às variáveis que se pretendem estudar. A representatividade é essencial para se considerar que um valor de uma estatística obtido a partir de uma amostra é um valor aproximado para o respectivo parâmetro da população, que é desconhecido. Uma amostra é tão mais representativa de uma população relativamente a um parâmetro se a estatística correspondente originar um valor próximo do verdadeiro valor do parâmetro. A diferença entre o valor do parâmetro desconhecido da população e o valor da estatística adoptada para o estimar designa-­‐se por erro amostral. Assim, uma amostra é tão mais representativa da população relativamente a um parâmetro quanto menor for o erro amostral associado. Na Ilustração 1-­‐2 as amostras A, B e C produziram os erros amostrais -­‐0,(3), 1,5 e -­‐1, respetivamente.

1.3 Tipos de Variáveis e Escalas de Medidas As metodologias estatísticas que se aplicam na análise de um conjunto de dados dependem do tipo de variáveis a que estes se referem. Certamente que o estudo do género e da idade dos cidadãos de uma localidade recorrerá a técnicas distintas, pela própria natureza das variáveis em causa. As variáveis classificam-­‐se em variáveis qualitativas e em variáveis quantitativas e são caracterizadas pela escala de medida (ou nível de mensuração). Uma variável qualitativa é uma característica não numérica e, geralmente, indica categorias de classificação mutuamente exclusivas. Estas variáveis podem ser medidas numa: •

escala nominal: a variável é medida em classes discretas não sendo possível estabelecer uma ordenação;

escala ordinal: A variável é classificada em classes discretas que admitem uma ordenação.

Uma variável quantitativa é uma variável que pode ser expressa numericamente, permite a ordenação e quantificação de diferenças. As variáveis quantitativas podem ser contínuas (geralmente assume um valor dentro de um intervalo real) ou discretas (geralmente está restrita a certos valores, normalmente resulta de uma enumeração ou contagem). Além das

Marco Costa, ESTGA2012


5

variáveis contínuas e discretas existem outras variáveis que estão fora do âmbito deste texto. As variáveis quantitativas podem ser medidas numa escala métrica podendo esta ser uma: •

escala de intervalo além da característica da escala ordinal em que um valor numérico mais elevado na escala indica uma quantidade maior da variável medida, nesta escala as diferenças entre valores numéricos contíguos na escala indicam diferenças iguais na quantidade medida. Nota: nas escalas de intervalo o valor “zero” é arbitrário, isto é, o valor zero não significa ausência total da variável medida (exemplo: as escalas de temperatura – graus Celsius e a escala Fahrenheit);

escala de rácio: além de ter todas as características da escala de intervalo nesta escala o valor “zero” é real e absoluto, isto é, indica ausência total da variável medida. É possível fazer inferências sobre um rácio entre valores numa escala de rácio.

Variáveis

Qualitativas

Nominal

Quantitativas

Ordinal

Intervalo

Rácio

Ilustração 1-­‐3: Tipos de variáveis e escalas de medida.

As escalas de medida indicam o grau de informação que uma variável tem associada. A escala nominal é a que tem associada menos informação sendo a razão a mais informativa. Nalgumas situações torna-­‐se útil proceder a transformação de escalas, por exemplo transformar uma escala métrica numa escala ordinal, ou até mesmo numa escala nominal. Basta pensarmos em transformar a estatura, em metros, de indivíduos em ordens ou mesmo categorias: os baixos, os médios e os altos. Regra geral, este tipo de transformação resulta numa perda de informação, porque transformamos os dados numa escala mais informativa numa com menos informação. Mas, nalguns contextos, poderá ter algumas vantagens. Outro exemplo muito comum consiste em transformar dados métricos (intervalar ou rácio) em nominais com duas categorias. Por exemplo, transformar as notas de um exame em “Aprovado” e “Reprovado”. Neste caso dizemos os dados designam-­‐se por dados

Marco Costa, ESTGA2012


6

dicotomizados. Não confundir com dados dicotómicos que são dados que apenas se podem exprimir em duas categorias, por exemplo a variável sexo.

1.4 Fontes de Dados, Estudos Estatísticos e Inquéritos Os dados que servem de base aos estudos estatísticos podem ter origem em diversas fontes. Nalguns casos já se encontram disponíveis diretamente por quem pretende o estudo. Noutros casos, poderá ser necessário proceder à recolha de dados. Conforme o tipo de estudo e de análise pretendida, os dados podem ter origem em fontes diretas ou fontes indiretas. As fontes diretas são as origens em que se obtêm os dados a estudar de uma forma direta, como por exemplo, inquéritos, entrevistas, uma medição direta de uma grandeza, etc. Os dados obtidos por fontes indiretas podem resultar da transformação ou combinação de dados de outras fontes diretas ou indiretas. Mediante o trabalho a realizar pode ser necessário obter dados a partir de bases de dados oficiais. Sobre dados económicos ou sociais podem ser consultados diversos sites: • • • • •

http://www.ine.pt (Instituto Nacional de Estatística); http://www.bportugal.pt (Banco de Portugal); http://w3.unece.org/pxweb/Dialog (United Nations Economic Commission for Europe); http://epp.eurostat.ec.europa.eu (Eurostat); http://www.ccdrc.pt (Comissão de Coordenação e Desenvolvimento Regional do Centro).

Um dos métodos mais utilizados nas ciências sociais e humanas para a recolha de dados são os inquéritos (ou questionários). Um estudo estatístico baseado em inquéritos (por exemplo, sondagens, estudos de mercado, recenseamentos, etc.) deve, em geral, contemplar um conjunto de etapas. Sistematizando o processo de desenvolvimento e implementação de um estudo estatístico deste tipo, podemos dizer que este deve conter as seguintes etapas: •

objectivos;

inquérito preliminar;

inquérito;

plano de amostragem;

escolha da amostra;

trabalho de campo/recolha da informação;

tratamento estatístico dos dados;

análise de resultados e relatório.

Marco Costa, ESTGA2012


7

Nos estudos de grandes dimensões ou os quais incidem sobre temas muito relevantes, por exemplo do ponto de vista social ou económico, é habitual a realização de um estudo preliminar (ou estudo piloto), prévio ao estudo propriamente dito. Os estudos preliminares podem ser vantajosos em diversas situações, no entanto, nem sempre são viáveis ou por limitações de tempo ou por constrangimentos económicos. No entanto, os estudos preliminares com recurso a inquéritos são recomendados, por exemplo, para: •

auxiliar na elaboração de um questionário novo – quando se tem como objectivo a confirmação ou a extensão de um trabalho já existente para o qual não existe um questionário apropriado;

testar um questionário já existente – quando se pretende averiguar a clareza, relevância e compreensão das perguntas a uma nova população.

Quando um estudo tem por base um questionário, a elaboração deste não deve ser negligenciada. De seguida iremos enunciar algumas tarefas (Hill e Hill, 2002) a ter em consideração num estudo em que a recolha dos dados é assente em questionários partindo de um conjunto de hipótese gerais estabelecidas: 1. listar todas as variáveis da investigação; 2. especificar o número de perguntas para medir cada uma das variáveis; 3. escrever uma versão inicial para cada pergunta; 4. pensar cuidadosamente na natureza das hipóteses e nas variáveis a elas associadas (tipicamente as hipótese são de dois tipo: hipóteses que tratam de diferenças entre grupos; hipóteses que tratam de relações entre variáveis); 5. decidir as técnicas estatísticas adequadas para testar as hipóteses; 6. com base na informação do ponto anterior, decidir o tipo de resposta desejável para cada pergunta; 7. com base nos pontos 4, 5 e 6 escrever a hipótese operacional (hipótese a testar efetivamente através das técnicas estatísticas); 8. rever as perguntas iniciais considerando a hipótese operacional de modo a obter as versões finais das perguntas; 9. verificar se as versões finais das perguntas e das respostas ainda estão adequadas para testar a hipótese operacional; 10. repetir os passos de 3 – 9 para as outras hipóteses gerais; 11. escrever as instruções associadas às pergunta de modo a que informar o respondente da forma como deve responder; 12. planear as secções do questionário, caso este seja comprido ou tenha vários temas diferentes.

Marco Costa, ESTGA2012


8

Outra etapa muito importante de um estudo estatístico é a elaboração do relatório estatístico. Os relatórios estatísticos são um importante instrumento de comunicação entre os membros das equipas de trabalho. Muitas vezes os decisores não dominam a linguagem nem as técnicas estatísticas bem como desconhecem as suas potencialidades. Assim, a forma como as análises estatísticas são veiculadas entre colegas e colaboradores é decisiva para uma comunicação eficaz. Um relatório estatístico, na área da gestão, deve ser conciso e deve tentar responder às pretensões do público-­‐alvo previamente identificadas aquando da análise estatística. Como uma indicação geral, um relatório estatístico deve conter, pelo menos, as seguintes partes: •

título, a quem se dirige, quem o preparou e data;

sumário executivo – tende a ser uma informação de leitura obrigatória, com factos e conclusões importantes resultantes do estudo. Visa resumir algumas conclusões e inclui as recomendações, caso existam; o sumário executivo surge no início do relatório;

introdução – texto que contextualiza o estudo, descrevendo a natureza e os objectivos do problema;

metodologia – esta parte é mais técnica e explica a metodologia adopta no estudo, podendo explicar a natureza das técnicas estatísticas utilizadas, as fontes de informação, e abordagens adoptadas no seu tratamento;

descobertas – nesta secção encontram-­‐se principalmente os cálculos estatísticos que servirão de base à análise, conclusões e recomendações no contexto do problema;

discussão e interpretação – com base nos resultados estatísticos obtidos na secção anterior procede-­‐se à discussão e interpretação dos mesmos; esta interpretação não deve ser apenas estatística mas também deve ter uma visão não-­‐técnica sobre os resultados;

conclusões e recomendações – esta secção pode repetir algumas informações do sumário executivo, permitindo uma explicação mais alargada; pode conter uma explicação mais alargada das recomendações, sempre com base nos resultados obtidos e explanados nas secções anteriores;

anexos – caso seja adequado poderão existir anexos com dados, tabelas ou resultados não fundamentais no texto principal.

As secções indicadas para um relatório estatístico são apenas sugestões e poderão ser adaptadas a cada realidade e contexto dos problemas em estudo. Apenas servem de guia e ajudam numa esquematização sempre útil neste tipo de trabalhos.

Marco Costa, ESTGA2012


9

2 Organização e Descrição de Dados A estatística descritiva (ou análise exploratória de dados, embora com um âmbito mais lato) engloba um conjunto de técnicas para organizar e descrever um conjunto de dados, de modo a que o investigador possa interpretar os dados de uma forma simples, geralmente através de representações gráficas ou sínteses de rápida leitura. Antes de qualquer tratamento estatístico deve proceder-­‐se a uma inspeção dos dados para a detecção de possíveis erros. Alguns dos erros introduzidos nos dados pode dever-­‐se ao método da recolha, ao sujeito que a realizou ou à forma como a informação foi organizada e poderão ser previamente detectados antes da análise estatística propriamente dita. Genericamente, os dados podem ser organizados através de tabelas de frequências, tabelas de contingência e gráficos. Os dados são organizados e apresentados recorrendo às técnicas adequados às variáveis neles existentes, em particular de acordo com a escala de medida das variáveis. Um procedimento que por vezes é útil para a inspeção dos dados relativos a uma variável (ordinal, intervalar ou rácio) como para o seu tratamento estatístico é a sua ordenação. No entanto, alguns tipos de dados (mesmo de variáveis métricas) não podem nem devem ser ordenados, como o exemplo de dados obtidos no tempo, para os quais a ordenação originava a perda da informação temporal da sua ocorrência.

Marco Costa, ESTGA2012


10

Considerando uma amostra de dimensão ! (números de elementos que constituem uma amostra) de uma variável métrica (intervalar ou rácio), ! = (!! , !! , … , !! ), a amostra ordenada de forma ascendente denota-­‐se por (!

!

,!

!

,...,!

!

,…,!

!

).

Mínimo

k-­‐ésima estatística ordinal

Máximo

Os extremos de uma amostra, o máximo e o mínimo, podem ajudar no processo de inspecção dos dados caso estes sejam ordinais ou métricos.

2.1 Tabelas de Frequências e Tabelas de Contingência As tabelas de frequências são muito utilizadas para organizar e sumariar os dados. Podemos dizer que uma tabela de frequências (ou distribuição de frequências é um método de organização tabular dos dados. Uma tabela de frequências indica as frequências absolutas ou relativas para cada valor da variável, que também podem ser simples ou acumuladas. A frequência absoluta, !! , indica o número de vezes que um valor (ou categoria) da variável se repete na amostra. Naturalmente que numa amostra de dimensão ! tem-­‐se !! = !. A frequência relativa, !! , é a percentagem que expressa o número de vezes que o valor (ou categoria) da variável se repete na amostra relativamente ao total das observações, isto é, !! = !! !. De igual modo, tem-­‐se que !! = 1 = 100%. Para as frequências absolutas ou relativas podem calcular-­‐se as frequências acumuladas, frequências relativas acumuladas, !! , ou frequências absolutas acumuladas, !! . As frequências acumuladas indicam para cada valor (ou categoria) da variável o número ou a frequência de observações existentes na amostra inferiores ou iguais a esse valor ou até essa categoria. De uma forma simbólica podemos escrever !! = !! + !! + ⋯ + !! =

!!! !! e !!

= !! + !! + ⋯ + !! =

!!! !! .

Por exemplo, se considerarmos a variável altura medida na escala baixo, mediano e alto, portanto uma escala ordinal, podemos obter uma tabela de frequências como a seguinte. Esta tabela poderá ser completada com as frequências absolutas acumuladas. Quando os dados são relativos a uma variável contínua (por exemplo a idade, a duração de uma viagem, etc.) ou mesmo discreta, mas com muitos valores distintos (por exemplo o número de disciplinas já feitas por um aluno que pode variar de 0 a 30) a construção de uma tabela de frequências como a anterior não será muito informativa. Nestes casos é usual proceder-­‐se à construção de classes (ou agrupamento dos dados).

Marco Costa, ESTGA2012


11

Altura !!

!! ×100%

!! ×100%

Frequency Percent Valid Percent Cumulative Percent Valid baixo

9

42,9

42,9

42,9

mediano

7

33,3

33,3

76,2

alto

5

23,8

23,8

100,0

21

100,0

100,0

Total

Tabela 2-­‐1: Tabela de frequências ou distribuição de frequências.

Por exemplo, se dispusermos de uma amostra de observações da variável idade podemos estar interessados em construir as classes “até 29 anos”, “de 30 a 39 anos”, …, “mais do que 70 anos”. Neste tipo de transformações de dados “perdemos” informação. De facto, partimos de uma variável medida numa escala de rácio e transformamo-­‐la numa escala ordinal. No entanto, esta transformação poderá ser bastante útil, por exemplo do ponto de vista da representação gráfica, como veremos mais adiante. A construção de classes não tem regras rígidas, tem de ser adaptada aos dados disponíveis. No entanto, podemos apontar um conjunto de indicações que se devem considerar neste tipo de procedimento. Indicamos apenas algumas: •

número de classes -­‐ não existe uma regra única quanto ao número de classes a construir, no entanto, existem regras que podem dar uma indicação, caso não se tenha as classes previamente estabelecidas. Uma das regras mais usadas é a regra de Sturges. A regra de Sturges sugere que se adopte ! classes em função da dimensão da amostra !, sendo ! dado por, !≅ onde

ln ! + 1 ln 2

representa a parte inteira;

amplitude das classes – sempre que possível, as classes devem ter todas a mesma amplitude e devem facilitar a leituras dos resultados, por exemplo, múltiplos de 5, 10, etc.;

limites das classes – os limites de uma classe são os valores que a delimitam; estas podem ser do tipo !! , !!!! ou !! , !!!! , sendo que os limites devem ser escolhidos

Relativamente às classes anteriormente referidas para agrupar os dados da variável idade pode fazer-­‐se a equivalência “de 30 a 39 anos” ≡ 30,40 ,

Marco Costa, ESTGA2012


12

mas também poder-­‐se-­‐ia adoptar classes do tipo “de 31 a 40 anos” ≡ 30,40 . idadeclasses Frequency Valid

Percent

Valid Percent

Cumulative Percent

até 29 anos

3

14,3

14,3

14,3

de 30 a 39 anos

4

19,0

19,0

33,3

de 40 a 49 anos

9

42,9

42,9

76,2

de 50 a 59 anos

1

4,8

4,8

81,0

de 60 a 69 anos

2

9,5

9,5

90,5 100,0

mais de 70 anos Total

2

9,5

9,5

21

100,0

100,0

Tabela 2-­‐2: Tabela de frequência de dados agrupados.

Enquanto a tabela de frequências é utilizada para organizar e sintetizar a informação de uma única variável, a tabela de contingência organiza e sintetiza a informação relativa a 2 ou mais variáveis. Para a elaboração de uma tabela de contingência as variáveis devem estar classificadas em categorias ou classes. As tabelas de contingência podem estar expressas em frequências absolutas ou em frequências relativas, sendo mais usual o primeiro cenário. sexo * altura Crosstabulation Count

altura baixo

sexo

mediano

alto

Total

feminino

4

5

1

10

masculino

5

2

4

11

Total

9

7

5

21

Tabela 2-­‐3: Tabela de contingência.

2.2 Estatísticas Uma das formas mais usuais de resumir os dados consiste no cálculo de algumas estatísticas. Como já vimos, uma estatística é uma grandeza calculada com base nos dados. As estatísticas, além de resumirem os dados, servem para caracterizarmos as variáveis em estudo, revelando alguns aspectos do seu comportamento, permitindo eventualmente a comparação com outras variáveis. As estatísticas mais habituais dividem classificam-­‐se nas seguintes categorias: •

medidas de tendência central -­‐ são utilizadas para localizar e identificar o “centro” de um conjunto de dados, isto é, em torno de que valor é que os dados estão concentrados;

estatísticas de ordem – são medidas de localização não central;

medidas de dispersão -­‐ tendem a quantificar a dispersão das observações relativamente às medidas de tendência, isto é, tentam quantificar a variabilidade dos dados;

Marco Costa, ESTGA2012


13

medidas de assimetria e achatamento – são utilizadas para caracterizar a forma da distribuição das observações.

As estatísticas são grandezas que podem ser relativas a uma amostra ou a uma população, havendo apenas algumas diferenças não significativas para o âmbito deste texto. Contudo, sempre que as estatísticas se referem a dados amostrais, as estatísticas dizem-­‐se estatísticas amostrais, por exemplo média amostral, etc. Caso contrário, se as estatísticas referem-­‐se a uma população dizem-­‐se estatísticas populacionais. As medidas de tendência central mais usadas são a média aritmética, a mediana e a moda. Se tivermos um conjunto de n observações, a média aritmética é uma estatística detonada por ! e calculada por !=

!! !!! !⋯!!! !

=

! !

! !!! !! .

Quando a coleção de dados contém observações que se podem considerar fora do padrão dos restantes dados, a que chamamos outliers como veremos adiante, ou apresenta é muita assimétrica1, pode usar-­‐se a média aparada a 5% (a percentagem mais usada) em alternativa à média aritmética. A média aparada a 5% calcula-­‐se eliminando as 5% maiores e as 5% menores observações, calculando a média aritmética das restantes2. A mediana é o valor que se encontra exatamente no meio das observações depois de estes estarem ordenados. Metade das observações são menores ou iguais à mediana e outra metade iguais ou superiores à mediana. É habitual designar a mediana de um conjunto de observações por !! sendo obtida por:

! é ímpar

!! = !

!!! !

; ! é par

!! =

! ! !! ! ! ! !! !

.

A moda é a observação que ocorre com maior frequência sendo usual designar-­‐se por !∗ ou !! . Quando nenhum valor se repete diz-­‐se que os dados são amodais. Se a maior frequência corresponder a duas observações então os dados dizem-­‐se bimodais. Quando existem três ou mais modas os dados dizem-­‐se polimodais. A média aritmética assume que todas as observações são igualmente “importantes”. Por vezes temos observações com pesos distintos e, por isso, devemos calcular uma média que reflita este facto. Se tivermos as observações !! , !! , . . . , !! com os pesos !! , !, . . . , !! , respectivamente, a média ponderada é obtida por

1 2

Discutiremos a assimetria de uma distribuição mais adiante. Ver Pestana e Gageiro (2008) quando 5%×! não é um número inteiro.

Marco Costa, ESTGA2012


14

!! =

!! !! + !! !! + ⋯ + !! !! = !! + !! + ⋯ + !!

! !!! !! !! . ! !!! !!

As estatísticas de ordem, também designadas por medidas de localização e de tendência não central, são os quartis, decis e percentis, exceptuando a mediana que coincide com o 2º quartil, o quinto decil e o quinquagésimo percentil. Os quartis são as estatísticas que dividem as observações em quatro partes iguais. O primeiro quartil, !! , e o terceiro quartil, !! , acumulam até si 25% e 75% das observações, respectivamente. Existem várias sugestões para o cálculo do quartis, no entanto, a forma mais intuitiva é considerar a observação cuja frequência relativa acumulada iguala ou excede a percentagem corresponde ao quartil. Cada software adopta uma metodologia e, caso se pretenda saber exatamente a metodologia adoptada, deve-­‐se investigar qual a abordagem implementada em cada caso. No entanto, as metodologias não diferem muito em termos dos resultados finais. Outras estatísticas de ordem muito usadas são os decis e os percentis, caso se opte por dividir a distribuição em 10 ou 100 partes, tendo-­‐se, por exemplo, os decis !"#$%! ou !"#$%! e os percentis !"#$"%&'(!" ou !"#$"%&'(!! . As medidas de dispersão mais usadas são: amplitude, amplitude interquartil, variância, desvio padrão e coeficiente de variação. A amplitude de um conjunto de dados é a medida de dispersão mais simples mas contudo menos informativa. A amplitude é a diferença entre o maior e o menor valores de uma amostra, isto é, !=!

!

−!

!

.

A amplitude interquartis é uma medida de dispersão menos sensível aos extremos e consiste na diferença entre os 3º e 1º quartis, isto é, !! = !! − !! . A variância é uma estatística que pretende medir a dispersão das observações relativamente à média aritmética. Assim, a variância3 tem em consideração as diferenças entre as observações e a média da seguinte forma !! =

!! !! ! ! !! !! ! !⋯! !! !! ! !!!

=

! !!!

! !!!

!! − ! !

3

A variância referida no texto é a variância amostral também designada por variância corrigida. Quando os dados correspondem a uma população deve substituir-­‐se o denominador ! − 1 por !. Esta referência é válida para o desvio padrão populacional.

Marco Costa, ESTGA2012


15

Note que a variância tem uma natureza quadrática, pelo que é dada no quadrado das unidades das observações, isto é, se as observações forem medições em metros, !, a variância é dada em ! ! . O desvio padrão é a raiz quadrada da variância. Desta forma, é mais fácil interpretar o desvio padrão uma vez que este é dado nas unidades das observações, !=

! ! .

O coeficiente de variação (ou coeficiente de dispersão) é uma medida de dispersão relativa muito usada para a comparação da dispersão de coleções de dados em unidades diferentes. De facto, o coeficiente de variação é dado por ! !" = ! sendo usualmente indicado em percentagem. Como o coeficiente de variação é uma grandeza adimensional permite a comparação da dispersão entre conjuntos de dados com unidades distintas, por exemplo, entre metros e quilogramas. A forma de uma distribuição em torno da média é caracterizada pelas medidas de assimetria e de achatamento. O coeficiente de assimetria, designado por !! , é calculado por !! =

! !! − ! ! ! − 1 ! − 2 !!

obtendo-­‐se zero quando a distribuição é simétrica. Quando !! > 0 a distribuição é assimétrica positiva ou enviesada à esquerda. Quando !! < 0 a distribuição diz-­‐se assimétrica negativa ou enviesada à direita.

!! < 0 !! ≅ 0 !! > 0 Ilustração 2-­‐1:Interpretação do coeficiente de assimetria.

Além da análise do coeficiente de assimetria, podemos aferir a assimetria de um conjunto de dados através da comparação das três principais medidas de tendência central. De facto, podemos usar as seguintes relações como indicações sobre a assimetria de uma distribuição:

Marco Costa, ESTGA2012


16

se média=moda=mediana a distribuição é simétrica;

se moda<mediana<média a distribuição é assimétrica positiva ou enviesada à esquerda;

se média<mediana<moda a distribuição é assimétrica negativa ou enviesada à direita.

O achatamento de distribuição pode ser medido pelo coeficiente de achatamento !! (ou curtose) dado por !! =

! !+1 !! − ! ! 3 !−1 ! − . ! − 1 ! − 2 ! − 3 !! !−2 !−3

O coeficiente de achatamento !! tende a caracterizar as distribuições simétricas quanto à sua forma, isto é, quantificando o “peso” das caudas (os valores extremos). Se !! < 0 a distribuição é “achatada” e diz-­‐se platocúrtica. Caso !! > 0 a distribuição à pontiaguda e diz-­‐se leptocúrtica. Numa situação intermédia, isto é, quando !! = 0 a distribuição diz-­‐se mesocúrtica.

!! < 0 !! ≅ 0 !! > 0 Ilustração 2-­‐2: Interpretação do coeficiente de achatamento (ou curtose).

Como veremos mais adiante, uma distribuição mesocúrtica é a chamada distribuição normal ou gaussiana que serve de distribuição padrão relativamente ao achatamento. Atualmente, muitos softwares permitem que apenas com alguns comandos se obtenham tabelas com as principais estatísticas de um conjunto de dados. O Excel dispõe de um suplemento, Análise de Dados, onde através da ferramenta Estatística Descritiva se obtêm as estatísticas de tendência central, dispersão e outras com bastante facilidade. Em alternativa, podemos obter as estatísticas de uma coleção de dados no PASW Statistics com o comando Analyze<Descriptive Statistics<Explore, como se ilustra de seguida com um exemplo de uma amostra de 21 pessoas no qual se obtém as estatísticas da variável idade. Algumas estatísticas

Marco Costa, ESTGA2012


17

dos outputs apresentados ainda não foram referidos neste texto, pelo que, neste momento, devemo-­‐nos focar nas estatísticas abordadas. Extreme Values

Descriptives

Statistic Std. Error

idade Mean 45,81 95% Confidence Interval for Mean Lower Bound 37,99 Upper Bound 53,63 5% Trimmed Mean 44,90 Median 43,00 Variance 295,462 Std. Deviation 17,189 Minimum 23 Maximum 85 Range 62 Interquartile Range 20 Skewness ,992 Kurtosis ,646

3,751

,501 ,972

Case Number Value

idade Highest 1

16

85

2

21

83

3

9

67

4

20

65

5

8

56

Lowest 1

2

23

2

1

23

3

10

29

4

17

32

5

4

32

a

Percentiles

Percentiles 5

10

25

50

75

90

95

Weighted Average(Definition 1) idade 23,00 24,20 32,00 43,00 51,50 79,80 84,80 Tukey's Hinges

idade

32,00 43,00 47,00

Tabela 2-­‐4: Estatísticas descritivas relativas à idade de a uma amostra de 21 pessoas (outputs do PASW Statistics).

2.3 Estatísticas para Dados Agrupados Quando analisamos os dados relativos a uma variável métrica em que apenas se conhecem as classes ou intervalos e as respectivas frequências, isto é, numa escala ordinal, não temos acesso às observações individuais originais. Assim, as estatísticas obtidas a partir de dados agrupados serão aproximações das que se obteria com os dados originais. A regra geral para o cálculo das medidas para dados agrupados consiste em considerar o ponto médio de uma classe (ou marca da classe) como o representante desta classe, isto é, poderíamos pensar que se a classe 5,7 tem uma frequência absoluta de 4, que temos 4 observações iguais ao ponto médio 6. Na prática isto leva a que as medidas sejam baseadas em médias ponderadas. Assim, se agruparmos os dados em ! classes com limites !! , !! , …, !!!! por exemplo da forma !! , !!!! , temos ! pontos médios dados por !!´ =

!! !!!!! !

.

Marco Costa, ESTGA2012


18

A média agrupada, !! , é dada pela média ponderada dos pontos médios das classes pelas respectivas frequências, relativas ou absolutas, isto é, 1 !! = !

!

!

!! !!´ !!!

!! !!´ .

= !!!

Às classes que contêm a mediana e a moda chamamos classe mediana e classe modal, respectivamente. Existem vários métodos para o cálculo de um valor aproximado da mediana, no entanto, não serão abordados neste texto. A variância e o desvio padrão para dados agrupados, !!! e !! , e são obtidos de modo análogo à média agrupada, isto é, considerando os pontos médios das classes como representantes das classes associados às respectivas frequências. Se tivermos acesso aos dados originais, isto é, à coleção de dados, devemos obter as estatísticas a partir destes. As estatísticas para dados agrupados apenas têm interesse quando apenas dispomos já dos dados agrupados em classes e não temos acesso aos dados originais. De facto, as estatísticas para dados agrupados são aproximações das que se obteriam a partir dos dados originais. Nem sempre faz sentido calcular-­‐se algumas das estatísticas que vimos anteriormente para todas as variáveis ou atributos. Por exemplo, estudando o género não faz sentido calcular a média nem sequer a mediana. As estatísticas adequadas dependem do nível de medida de cada variável ou atributo. No quadro seguinte resume-­‐se quais as estatísticas adequadas a cada escala de medida. Escala Nominal Moda

Escala Ordinal Moda

Escala Intervalar/Rácio Moda

Estatísticas de ordem

Estatísticas de ordem

Amplitude Interquartis

Amplitude Interquartis

Amplitude

Média

Média aparada

Variância / desvio padrão

Coeficiente de variação

Assimetria e achatamento

Tabela 2-­‐5: Estatísticas mais adequadas a cada escala de medida.

Marco Costa, ESTGA2012


19

2.4 Representações Gráficas Os métodos gráficos são por excelência os meios mais utilizados e mais práticos para a representação de dados estatísticos. Existe uma grande diversidade de gráficos apropriados a vários tipos de dados. Aqui iremos referir os mais utilizados. A caixa-­‐de-­‐bigodes (box-­‐plot ou box-­‐and-­‐whisker plot) é uma representação gráfica muito usada para analisar a distribuição dos dados além de que permite detectar outliers. Existem algumas variações neste tipo de representação, no entanto, todas têm algumas características comuns. A caixa-­‐de-­‐bigodes representa as principais estatísticas ordinais como o máximo, o mínimo, os quartis da distribuição, !! e !! , e a mediana da distribuição. A caixa central representa os 1º e 3º quartis. Na construção de uma caixa-­‐de-­‐bigodes estão implícitas as barreiras internas e as barreiras externas calculas da seguinte forma: •

barreira interna inferior: !! − 1,5 !! − !! ;

barreira interna superior: !! + 1,5 !! − !! ;

barreira externa inferior: !! − 3 !! − !! ;

barreira externa superior: !! + 3 !! − !! .

Uma observação ! pode classificar-­‐se como outlier moderado (ou apenas outlier) ou outlier severo (ou extremo). Uma observação ! é um outlier moderado se !! − 3 !! − !! < ! < !! − 1,5 !! − !! ou !! + 1,5 !! − !! < ! < !! + 3 !! − !! . Uma observação ! é um outlier severo se ! < !! − 3 !! − !! ou ! > !! + 3 !! − !! . Os bigodes são prolongados desde a caixa central até à observação mínima não outlier (no caso do bigode inferior) e até à observação máxima não outlier, no caso do bigode superior.

o

outlier moderado

observação mínima não outlier

!!

!!

!!

observação máxima outlier severo não outlier

Ilustração 2-­‐3: Caixa-­‐de-­‐bigodes.

Ilustração 2-­‐4: Caixa-­‐de-­‐bigodes do número de acidentes com vítimas nas NUTs III em 2006.

Marco Costa, ESTGA2012


20

Na caixa-­‐de-­‐bigodes do número de acidentes com vítimas (feridos ou mortos) nas NUTs III em 2006 surge um outlier moderado, a observação número 4 a que corresponde o Grande Porto (3592 acidentes) e um outlier severo a que corresponde a Grande Lisboa (6084 acidentes). As variáveis contínuas, regra geral, são representadas por histogramas, construídos com base numa tabela de frequências previamente elaborada (pelo menos as frequências relativas ou absolutas). Os histogramas são gráficos de barras justapostas em que no eixo horizontal são colocados as classes e no eixo vertical as frequências absolutas ou relativas. 20 18 16 14 12 10 8 6 4 2 0

18

freq. abs.

11 8

7

4

]50, 60]

2 ]60, 70]

]70, 80]

]80, 90]

]90, 100] ]100, 110]

n.º de passageiros

Ilustração 2-­‐5: Histograma do número de passageiros numa companhia de aviação em 50 dias.

Os gráficos de barras têm múltiplas aplicações tanto para a representação da distribuição de frequências de variáveis. Os gráficos de barras são muito similares aos histogramas do ponto de vista da sua construção e visualização, no entanto, neste caso as barras verticais estão bem separadas, uma vez que as barras justapostas dos histogramas tem como objectivo, quase sempre, reforçar a natureza contínua das variáveis. 2000000 1500000 1000000 500000 0 Norte

Centro

Lisboa

Alentejo

Algarve

Ilustração 2-­‐6: Alojamentos familiares clássicos por localização geográfica em 2007 (fonte: INE).

Marco Costa, ESTGA2012


21

Os gráficos circulares (pie-­‐charts) são indicados para representar a informação em termos percentuais, principalmente relativa a variáveis em escalas nominal ou ordinal. Existem muitas variações deste tipo de gráficos, bidimensionais, tridimensionais, com separação das “fatias”, etc. 50 -­‐ 249 0.55%

10 -­‐ 49 3.96%

250 e mais 0.08%

0 -­‐ 9 95.41%

Ilustração 2-­‐7: Empresas por escalão de pessoal ao serviço em 2006 (fonte: INE).

Os dados relativos a variáveis estão associados ao tempo, isto é, resultam da observação ou medição de uma variável numa determinada unidade temporal (segundos, horas, dias, anos, etc.). A uma coleção de dados deste tipo chamamos série temporal ou sucessão cronológica. Uma vez que este tipo de dados têm associada uma determinada ordem, neste caso uma ordem cronológica, devemos ter algum cuidado no seu estudo, por exemplo não deveremos proceder à sua ordenação para não de perdermos a informação temporal. Os gráficos mais usados para representar séries temporais são os gráficos de linhas (também conhecidos por cronogramas). 140000 120000 100000 80000 60000 40000 20000 0

Ilustração 2-­‐8: Exportações de mercadorias (bens energéticos) em Portugal, em milhares de escudos, entre 1974 e 1995 (fonte: Banco de Portugal).

Alguns gráficos de linhas apenas assinalam as observações com pontos, não unindo com traços.

Marco Costa, ESTGA2012



3 Variáveis Aleatórias e Distribuições de Probabilidade Quando temos acesso a uma amostra dispomos de um conjunto de observações de uma variável relativamente a um número limitado de elementos da população. Um estudo descritivo da amostra apenas permite caracterizar os dados disponíveis não havendo quaisquer garantias que se observássemos todos os elementos da população estes teriam o mesmo comportamento. Para passarmos a inferir propriedades da população a partir da descrição de um conjunto de dados torna-­‐se útil a utilização de modelos matemáticos que modelem o comportamento das variáveis. Neste contexto, chamamos modelos probabilísticos aos modelos que procuram reproduzir o comportamento de características da população que se refletem com aleatoriedade nos seus elementos. Por exemplo, quando estudamos a idade dos alunos de uma turma, por muito homogénea que esta seja certamente teremos alunos com idades distintas e, certamente, alguns com as mesmas idades. Dada a homogeneidade previsível das idades podemos postular um modelo global para a variável idade, que terá de acomodar as naturais variações das idades de alguns alunos relativamente ao padrão global, porque cada aluno terá a sua própria idade. Um modelo que caracterize a idade dos alunos de uma turma terá de permitir alguma aleatoriedade intrínseca aos seus elementos. Isto é, a idade é uma variável aleatória no sentido de que, só “observando” o elemento da população é que sabemos de facto qual o respectivo valor da variável. Este facto não impede que se tente caracterizar a aleatoriedade da variável, como veremos de seguida.


24

3.1 Distribuição e Parâmetros de uma Variável Aleatória Os histogramas seguintes representam conjuntos de dados com a mesma média amostral relativas a 4 variáveis de interesse. As representações obtidas evidenciam que as 4 variáveis apresentam um comportamento diferenciado. Apesar de terem a mesma média amostral apresentam assimetrias e dispersão distintas.

1

2

3

4

5

6

7

1

2

3

4

5

6

7

1

2

3

4

5

6

7

1

2

3

4

5

6

7

Ilustração 3-­‐1: Histogramas de quatro variáveis com a mesma média e distribuições diferentes.

Ao comportamento de uma variável aleatória chamamos distribuição (mais corretamente, distribuição de probabilidade) dessa variável. A distribuição de uma variável descreve o comportamento aleatório da grandeza em estudo caracterizando-­‐o não só quanto à forma mas também estabelecendo os parâmetros que eventualmente tenha associados. Note que o histograma é ao meio por excelência para uma análise preliminar da distribuição de uma variável contínua, enquanto um gráfico de barras é o mais indicado para uma variável discreta. Em Estatística existem vários modelos teóricos discretos e contínuos bem estudados e para os quais são conhecidas as suas propriedades. Por vezes, as técnicas da Estatística Descritiva são utilizadas na procura de um modelo teórico conhecido que se ajuste aos dados de modo a que, desta forma, se possa aplicar metodologias estatísticas mais avançadas, por exemplo na modelação de variáveis para a obtenção de previsões. Como vimos na Estatística Descritiva, a distribuição de um conjunto de dados pode caracterizar-­‐se através das estatísticas amostrais e representações gráficas. Quando pensamos num modelo teórico para modelar o comportamento de uma variável aleatória convém reconhecer a forma da sua distribuição e seus parâmetros. Neste texto iremos abordar vários modelos probabilísticos, no entanto, existe um modelo que é a base de toda a inferência estatística.

Marco Costa, ESTGA2012


25

3.2 Modelo Normal Muitas das variáveis contínuas têm um comportamento próximo da distribuição normal ou gaussiana conhecida pela sua forma de sino. Este modelo probabilístico é muitas vezes adoptado para modelar variáveis contínuas que são o resultado de medições, como a altura, o peso, a distância, etc. Como veremos mais adiante, este modelo, apesar de ser contínuo, será utilizado como aproximação para variáveis discretas nalguns contextos específicos. A grande aplicabilidade da distribuição normal deve-­‐se à sua grande versatilidade, podendo-­‐ se adaptar a um vasto conjunto de variáveis, desde que tenham algumas características, como por exemplo a simetria, coeficiente de achatamento nulo e a distribuição com a forma de “sino”. Dado um conjunto de dados podemos aferir de uma forma empírica se existe aderência dos dados à distribuição normal através de um conjunto de análises descritivas: •

distribuição simétrica – se a média, a mediana e a moda forem semelhantes é um indício de que a distribuição dos dados é simétrica; esta análise deve ser complementada com a análise do coeficiente de assimetria !! em que este deverá ser aproximadamente nulo;

achatamento nulo – se o coeficiente de achatamento !! for aproximadamente zero indica aderência dos dados à distribuição normal, uma vez que no caso da distribuição normal tem-­‐se !! = 0;

forma de “sino” – a construção de um histograma permite aferir se a forma da distribuição dos dados se assemelha à forma de “sino”, característica da curva gaussiana.

Por exemplo, o histograma que obtivemos para o número de passageiros diários de uma

freq. abs.

empresa de aviação em 50 dias apresenta uma forma muito similar à curva gaussiana. 20 18 16 14 12 10 8 6 4 2 0

18

11 8

7

4 2 3

]50, 60]

]60, 70]

]70, 80]

]80, 90]

]90, 100]

5

7

9

11

13

15

17

]100, 110]

n.º de passageiros

Ilustração 3-­‐2: Comparação do histograma com a forma da curva normal.

A distribuição normal fica caracterizada por um parâmetro de tendência central, a média ! e por um parâmetro de dispersão, a variância ! ! . É usual denotarmos uma variável aleatória ! com distribuição normal por !~! !, ! ! .

Marco Costa, ESTGA2012


26

Como vemos na ilustração seguinte, a forma da distribuição normal caracteriza-­‐se pela média, como medida de tendência central, e pela variância, indicando a dispersão da distribuição, sendo que, qualquer das distribuições é simétrica relativamente à média, tem coeficiente de achatamento nulo e a forma de “sino”. N(10;1) N(10,4) N(8,2)

2

4

6

8

10

12

14

16

Ilustração 3-­‐3: Forma de distribuições normais com médias e variâncias diferentes.

Se uma variável ! tem distribuição normal !~! !, ! ! , então verificam-­‐se as seguintes probabilidades: •

! ! − ! < ! < ! + ! = 68,3%

! ! − 2! < ! < ! + 2! = 95,5%

! ! − 3! < ! < ! + 3! = 99,7%.

As probabilidades indicadas são úteis porque nos permitem ter uma ideia da distribuição das observações quando estas podem ser caracterizadas por uma distribuição normal.

-4

µ −-3 3σ

µ −-2 2σ

µ-1 −σ

µ 0

68.3% 95.5% 99.7%

µ +1σ

µ+ 2 2σ µ + 3 3σ

4

Ilustração 3-­‐4: Probabilidades relativas aos intervalos mais utilizados da distribuição normal.

Na prática, isto significa que se os dados tiverem uma distribuição próxima da curva normal verificar-­‐se-­‐á semelhanças entre estas e as respectivas frequências de dados. Verifique os resultados teóricos anteriores com o estudo de simulação que se propõe de seguida.

Marco Costa, ESTGA2012


27

Proposta de estudo de simulação 1. Simule, através da análise de dados/geração de número aleatório no Excel, uma amostra de dimensão 300, com distribuição normal ! (10,4). 2. Proceda a uma análise gráfica para aferir a aderência dos dados à curva normal. 3. Calcule as medidas amostrais: média, mediana, moda, variância, desvio-­‐padrão, coeficiente de assimetria e o coeficiente de achatamento. Analise os valores obtidos e comente-­‐os relativamente ao que era esperado. 4. Determine os limites dos intervalos ! − !, ! + ! ! − 2!, ! + 2! e ! − 3!, ! + 3! . 5. Calcule as percentagens de observações que pertencem a cada um dos intervalos anteriores e compare-­‐as com as probabilidades teóricas. As probabilidades anteriores são as mais comuns e de maior interesse prático, contudo, por vezes, é necessário calcular probabilidades de uma observação pertencer a um dado intervalo.

Ilustração 3-­‐5: Relação entre a probabilidade ! ! < !" e área na representação da distribuição.

Por exemplo, a probabilidade de uma observação de uma distribuição normal !(10,4) ser inferior a 13, isto é ! ! < 13 , é dada pela área da região sombreada anterior. De modo análogo, a probabilidade de uma observação estar entre 7 e 12, ! 7 < ! < 12 é dada pela área da região seguinte.

Ilustração 3-­‐6: Relação entre a probabilidade ! ! < ! < !" e a área na representação da distribuição.

Marco Costa, ESTGA2012


28

Na prática, estas probabilidades são calculadas através de tabelas ou com o auxílio de softwares. O Excel dispõe de uma função que devolve a probabilidade da forma !(! < !) de uma variável com distribuição normal !~!(!, ! ! ), essa função é a função dist.norm com os argumentos

dist.norm(!;!;!;1). Em alternativa aos meios computacionais existem tabelas com as quais é possível obter-­‐se probabilidades relativas à distribuição normal. No entanto, as tabelas que existem dizem respeito à distribuição !(0,1). Quando uma variável tem uma distribuição normal tem média zero e variância 1 diz-­‐se que a variável tem uma distribuição normal padrão e representa-­‐se geralmente por ! ~!(0,1). As tabelas existentes disponibilizam os valores da função de distribuição da normal padrão, isto é, alguns valores da função Φ ! = ! ! ≤ ! . A função de distribuição da normal padrão devolve a probabilidade ! ! ≤ ! que em termos gráficos corresponde à área compreendida entre a curva gaussiana, o eixo das abcissas e a recta vertical de abcissa !. Por exemplo, verificam-­‐se as seguintes relações Φ ! = 95% ⇔ ! = Φ !! 0,95 ⇔ ! = 1,645. !~!(0,1)

95%

5%

1,645

O Excel tem uma função que dada a probabilidade acumulada ! devolve o valor ! para o qual essa probabilidade é atingida caso a variável tenha uma distribuição normal. Caso a distribuição seja uma normal !(!, ! ! ) deve usar-­‐se a função inv.norm(), se a variável for uma normal padrão então podemos usar a função inv.normp(). Consulte a ajuda do Excel para ver os argumentos destas funções.

Marco Costa, ESTGA2012


29

As probabilidades mais usadas em Estatística são as que se apresentam na tabela seguinte. Caso seja necessário obter outras além destas ter-­‐se-­‐á de consultar uma tabela mais ampla ou usar um software, por exemplo o Excel. ! Φ ! 2 1 − Φ(!)

1,282 0,90 0,20

1,645 0,95 0,10

1,960 0,975 0,05

2,326 0,99 0,02

2,576 0,995 0,01

3,090 0,999 0,002

3,291 3,891 0,9995 0,99995 0,001 0,0001 Tabela 3-­‐1: Valores da função de distribuição da distribuição normal padrão.

Quando não temos acesso a um software para o cálculo de probabilidades de uma variável normal !~!(!, ! ! ), podemos usar a tabela das probabilidades da normal padrão se atendermos à relação ! !≤! =! !≤

!−! !−! =Φ . ! !

3.3 Teorema Limite Central A relevância do modelo normal na ciência estatística deve-­‐se principalmente às consequências do Teorema Limite Central, o resultado científico mais conhecido da Estatística. O impacto deste teorema deve-­‐se à sua simplicidade e grande aplicação. O Teorema Limite Central (TLC) indica que a soma de um grande número de variáveis independentes com a mesma distribuição de probabilidade terá uma distribuição aproximadamente gaussiana. Quanto maior for o número de variáveis que se somam mais próxima da distribuição normal será a distribuição da sua soma. Formalizando, o Teorema Limite Central diz que sendo !! , !! , … , !! , ! variáveis aleatórias com a mesma distribuição de probabilidade, em particular com média ! e variância ! ! , então !

a

!! ~ ! !", !!2 . !!!

Uma consequência prática muito útil, como veremos mais à frente, consiste na distribuição aproximada para a média amostral. De facto, a média aritmética não é mais do que uma soma de variáveis que, estando nas condições do TLC tenderá a ter uma distribuição gaussiana. Considera-­‐se que a aproximação à distribuição normal é aceitável quando o número de variáveis que somamos é no mínimo 30, isto é, é usual considerar-­‐se a aproximação indicada no TLC quando ! ≥ 30.

Marco Costa, ESTGA2012


30

Marco Costa, ESTGA2012


4 Estimação Pontual e Intervalar A análise estatística tem geralmente como objectivo, entre outros, a estimação de parâmetros da população em estudo, caso a coleção de dados em análise seja uma amostra. Os parâmetros de uma população (os mais usuais são a média, desvio padrão ou uma proporção de um dado atributo) são estimados ou aproximados por estatísticas obtidas a partir de uma ou mais amostras dessa população. Este objectivo extravasa largamente o âmbito das técnicas de estatística descritiva, nas quais se procura descrever a coleção de dados disponível. De facto, quando temos acesso a uma coleção de dados que constitui uma parte da população, isto é, temos uma amostra, e pretendemos com base nesta conjecturar certas propriedades da população necessitamos de outro tipo de técnicas, estas do âmbito da inferência estatística. Neste capítulo iremos tentar responder à estimação de parâmetros populacionais a partir de uma amostra da população. Note-­‐se que a este tipo de metodologias está sempre associado um grau de confiança associado às inferências realizadas, inerente ao facto de não termos acesso à totalidade dos elementos da população mas apenas a uma parte desta.

4.1 Estimadores e Estimativas Admitamos que temos interesse em estudar o parâmetro ! de uma população. Sendo uma característica numérica da população é natural que a pretendamos calcular se tivermos acesso à população na totalidade. Na maioria das vezes apenas dispomos de uma amostra da população que pretendemos estudar e, como base nela, pretende-­‐se estudar o parâmetro desconhecido.


32

Admitamos que pretende-­‐se estudar uma população, ou melhor dizendo, pretende-­‐se estudar uma variável ou atributo dos elementos da população, a partir de uma amostra de dimensão !. Podemos considerar que a variável em estudo ! tem um modelo probabilístico subjacente e que iremos ter acesso a ! elementos da população, isto é, às variáveis !! , !! , … , !! , onde !! representa a variável em estudo relativa ao elemento ! da amostra. É usual representar-­‐se uma amostra aleatória por ! = !! , !! , … , !! . Como veremos mais à frente, existem várias metodologias para a recolha de uma amostra. No entanto, e neste contexto admitamos a situação mais simples que consiste em obter uma amostra de modo a garantir que cada amostra de igual dimensão tem a mesma probabilidade de ser selecionada. Quando uma amostra é recolhida com os pressupostos anteriores dizemos que é uma amostra aleatória simples. Daqui para a frente quando apenas nos referimos a amostra estará subjacente de que se trata de uma amostra aleatória simples. Dispondo de uma amostra (!! , !! , … , !! ) de uma população, eventuais parâmetros desconhecidos podem ser estimados por estatísticas, isto é, por grandeza obtidas apenas com base na amostra. A uma estatística que sirva para estimar um parâmetro ! populacional chamamos estimador desse parâmetro, ! . Na prática usamos a aproximação ! ≅ !. Note que um estimador não é mais do que uma função da amostra aleatória, isto é, ! = ! !! , !! , … , !! . Ao valor que se obtém a partir de um estimador ! para uma dada amostra em concreto ! = !! , !! , … , !! chamamos estimativa (ou estimativa pontual) do parâmetro !, sendo usual designar-­‐se a estimativa por !!"# . Assim, cada amostra dará origem a estimativas distintas para um parâmetro mesmo quando este é estimado por um mesmo estimador. Note que as variáveis aleatórias designam-­‐se por letras maiúsculas, enquanto as observações concretas por letras minúsculas. Por exemplo, considere-­‐se uma variável ! de uma população com 5 elementos e, em particular, a população é Ω = 2,5,6,8,9 . Admita que se pretende estudar a média desta variável na população com recurso a uma amostra de dimensão 4. Do ponto de vista metodológico iremos selecionar uma amostra do tipo ! = !! , !! , !! , !! .

Marco Costa, ESTGA2012


33

Como o parâmetro a estudar é a média, o seu verdadeiro valor é ! =

!!!!!!!!! !

= 6. Como a

média é um parâmetro de tendência central podemos pensar em estimá-­‐la através de dois estimadores: a média amostral e a mediana amostral. Neste caso teríamos os estimadores 1 !! = 4

!

!! !!!

e !! = mediana !! , !! , !! , !! . Como este exemplo é simples, conhecemos todas as 5 amostras possíveis de dimensão 4, e assim conseguimos visualizar quais as estimativas que obteríamos para cada estimador para cada amostra possível, como se mostra na tabela seguinte. Amostra 5,6,8,9 2,6,8,9 2,5,8,9 2,5,6,9 2,5,6,8

!! 7 6,25 6 5,5 5,25

!! 7 7 6,5 5,5 5,5

Tabela 4-­‐1: Estimativas da média e mediana amostrais para as amostras de dimensão 4 possíveis de uma população de dimensão 5.

Note que a média das estimativas obtidas pela média amostral, isto é, pelo estimador !! é exactamente igual ao parâmetro que se pretende estimar (média(7;6,25;6;5,5;5,25)=6), o mesmo já não acontece com a mediana amostral. De facto, a média das 5 estimativas é igual a 6,3. Neste caso, a mediana amostral tende a sobrestimar o parâmetro pretendido (média(7;7;6,5;5,5;5,5)=6,3). De modo geral os parâmetros mais estudados relativamente a uma população genérica são a média e variância (ou desvio padrão) populacionais, no caso de variáveis quantitativas, ou proporções, no caso de variáveis qualitativas. É habitual designar-­‐se os parâmetros populacionais por letras gregas para os diferenciarmos dos respectivos estimadores. Por exemplo, considerando o estudo de uma variável métrica ! , a média populacional é habitualmente designada pela letra !, enquanto a variância populacional por ! ! , e naturalmente o desvio padrão por !. Caso a variável em estudo seja qualitativa geralmente estamos interessados em estudar a proporção dos elementos da população com um mesmo atributo, por exemplo a percentagem de clientes do sexo masculino de uma empresa. As proporções designam-­‐se habitualmente por !.

Marco Costa, ESTGA2012


34

O estimador mais usual para estimar a média populacional é a média amostral ! , isto é, 1 !=!= !

!

!! . !!!

No caso da variância populacional ! ! o estimador mais usado é a variância amostral ! ! 1 !! = !! = !−1

!

!! − ! ! !!!

sendo o estimador do desvio padrão populacional o desvio padrão amostral ! = ! = ! ! . Quando se pretende estimar a proporção dos elementos da população com um atributo, o estimador mais usado é a frequência relativa ! desse atributo verificada na amostra, isto é, !=!=

n.º de elementos da amostra com o atributo . !

4.2 Intervalos de Confiança: Conceito e Nível de Confiança Dada uma amostra, um estimador produz uma estimativa para um parâmetro, mas não indica qual a confiança que podemos ter de que essa estimativa está próxima do verdadeiro valor do parâmetro populacional. Um intervalo de confiança (ou estimativa intervalar) é um intervalo obtido a partir de uma amostra ! = !! , !! , … , !! , o qual deve conter o parâmetro populacional com uma confiança pré-­‐estabelecida (em %), designado por nível de confiança do intervalo. Como veremos, um intervalo de confiança é um intervalo de números reais que contém a estimativa pontual do parâmetro em estudo e que se pretende que transmita uma ideia da precisão dessa mesma estimativa pontual. Um intervalo de confiança para um parâmetro populacional tem sempre associado o respectivo nível de confiança. De facto, indicar-­‐se que a remuneração média de um português varia entre 700 e 900 euros, tendo esta estimativa sido obtida por amostragem, sem indicar o grau de credibilidade dessa afirmação, torna-­‐a bastante débil e pouco informativa. Por outro lado, se esse mesmo intervalo for indicado com uma confiança de 95%, ficamos com uma noção da sua credibilidade. Quando estabelecemos um intervalo de confiança a 1 − ! ×100% para um parâmetro populacional significa que cerca de !×100% dos intervalos que se obteriam a partir 100 amostras aleatórias não contêm o verdadeiro parâmetro. Isto é, se o processo de amostragem fosse repetido 100 vezes, e se fossem calculados os respectivos 100 intervalos de confiança, cerca de ! ×100% desses intervalos não continham o verdadeiro parâmetro populacional .

Marco Costa, ESTGA2012


35

4.3 Intervalos de Confiança para a Média Populacional A construção de intervalos de confiança depende principalmente do parâmetro que se pretende estimar, da dimensão da amostra e da informação disponível sobre a distribuição de probabilidade da variável em estudo, isto é, da população.

4.3.1 Intervalo Aproximado com Base numa Grande Amostra Se pretendermos estimar a média de uma população (de grandes dimensões ou infinita) com base numa amostra ! = !! , !! , … , !! de dimensão superior ou igual a 30 (! ≥ 30) podemos aplicar o TLC para a construção de intervalos de confianças. De facto, como já vimos, a média amostral é usualmente adoptada como estimador para a média populacional !. Admitindo-­‐se que a amostra é aleatória simples e ! ≥ 30, estamos nas condições do Teorema Limite Central, e considerando o estimador ! ! = ! ! , verifica-­‐se a relação a

! ~ ! !,

!! !

ou de forma equivalente !

!−! a ~ ! 0,1 . !

Ao desvio padrão amostral da média amostral, !! =

! !

, chamamos erro padrão.

Conhecendo-­‐se as probabilidades associadas à distribuição normal, podemos escrever ! −!!!! < ! !

onde z!!! = Φ !! 1 − !

! !

!−! < !!!! = 1 − ! ×100% ! !

. Ou seja, o intervalo de confiança a 1 − ! ×100% aproximado para

a média populacional com base numa amostra grande é ! = ! ± !!!! !

! !

ou ! = ! ± !!!! !! !

Quando for necessário poder-­‐se-­‐á indicar o intervalo de confiança de um modo mais explícito, por exemplo !

!!! ×!""%

! = ! − !!!! !

! !

, ! + !!!! !

! !

.

Marco Costa, ESTGA2012


36

Note que a notação !

!!! ×!""%

! indica claramente qual o parâmetro que o intervalo

pretende estimar bem como o nível de confiança associado. O nível de confiança do intervalo é a percentagem 1 − ! ×100%, enquanto a percentagem !×100% é designada por significância. Quando a população em estudo tem dimensão finita ! , e se conhece o seu efectivo, deve-­‐se proceder a uma correcção do erro padrão. De facto, neste caso, o erro padrão é menor do que o indicado anteriormente devendo ser multiplicado pelo factor de correção isto é, !! =

!

!!!

!

!!!

!−!

! − 1 ,

, sendo o intervalo de confiança a 1 − ! ×100% dado por

! = ! ± !!!! !! !

!−! . !−1

Note que os intervalos de confiança obtidos a partir do TLC são intervalos aproximados, sendo tão mais corretos quando maior for a dimensão da amostra. Além disso, podem ser aplicados para estimar a média de qualquer distribuição, desde que a amostra seja grande.

4.3.2 Intervalo para a Média de uma População Normal com Base numa Amostra Pequena A determinação de intervalos de confiança para a média populacional com base em amostras pequenas (! < 30) não recorre à distribuição normal, uma vez que já não estamos nas condições de aplicação do TLC. Nestes casos, a amplitude do intervalo de confiança não é determinada pelo valor da distribuição normal mas através de um modelo probabilístico designado por t de Student. Contrariamente à distribuição normal, a distribuição t de Student depende apenas de um único parâmetro – o número de graus de liberdade. A distribuição t de Student tem uma variância maior que a distribuição normal padrão que depende dos graus de liberdade. Os graus de liberdade são o número de observações menos o número de restrições impostas a essas mesmas observações. Para uma amostra de dimensão ! temos ! − 1 graus de liberdade uma vez que a média amostral constitui uma restrição Por exemplo, numa amostra !! , !! , … , !! ao fixarmos a média amostral ! apenas ! − 1 observações são “livres” uma vez que a “última” será sempre 1 != !

Marco Costa, ESTGA2012

!

!!!

1 !! = !

!!!

!! + !! !!!

1 ⟺ !! = ! ! − !

!!!

!! . !!!


37

A distribuição t de Student com ! graus de liberdade tem uma forma muito similar à normal, embora com uma maior dispersão, o que implica a obtenção de intervalos de confiança com maiores amplitudes. Note que qualquer distribuição t de Student tem média nula. Em termos de notação, se uma variável aleatória ! segue uma distribuição t de Student com ! graus de liberdade denota-­‐se por !~!(!) . O gráfico seguinte mostra as distribuições t de Student !(!) e !(!) , assinalando os valores para quais se obtém os 95% de probabilidade central. Note que g. l. = ∞ corresponde à normal padrão.

Ilustração 4-­‐1: Comparação de distribuições t de Student e a normal padrão, em particular, os intervalos de 95% de probabilidade simétricos e centrado na origem.

As probabilidades associadas a uma variável ! com distribuição t de Student com ! graus de liberdade e os respectivos quantis usualmente denotam-­‐se por ! ! ≤ !!;! = !. !(!) ! 100% 2

! 100% 2

1 − ! 100%

−!!!!;! !

!!!!;! !

Ilustração 4-­‐2: Distribuição t de Student e quantis de probabilidade.

Existem tabelas com as probabilidades e os quantis associados à distribuição t de Student para vários valores dos graus de liberdade. No entanto, alguns softwares, como o Excel ou o PASW Statistics, disponibilizam comandos para o cálculo destas probabilidades e quantis de uma

Marco Costa, ESTGA2012


38

forma mais rigorosa. Cada software tem comandos próprios e é necessário verificar com cuidado quais os inputs pedidos e quais os valores que são devolvidos. Por exemplo, o Excel tem uma função especialmente prática para se obter o valor da distribuição ! de Student associada a uma significância do intervalo de confiança. A função invt() devolve o valor da distribuição ! de Student com ! graus de liberdade a que corresponde uma probabilidade bi-­‐caudal de ! ×100%, isto é, invt !; ! = !!!!;! !

precisamente o valor a usar na construção de um intervalo a 1 − α ×100% de confiança. Caso se pretenda obter a probabilidade a partir de um valor poderá usar-­‐se a função distt(). No PASW Statistics, os quantis e as probabilidades da distribuição ! de Student podem ser obtidos com o comando Transform<Compute

Variable optando por CDF

&

Noncentral CDF ou Inverse DF, caso se pretenda a probabilidade ou o quantil, indicando a distribuição pretendida. Assim, quando a amostra é pequena ! < 30 , e pode-­‐se considerar que a variável é normalmente distribuída, o intervalo de confiança a 1 − α ×100% é dado por ! = ! ± !!!!;!!! !! ou ! = ! ± !!!!;!!! !! !

!

!−! !−1

caso a população seja infinita (ou muito grande) ou finita, respectivamente, ou ainda na forma !

!!! ×!""%

! = ! − !!!!;!!! !

! !

, ! + !!!!;!!! !

! !

.

Quando a população tem distribuição normal deve-­‐se aplicar sempre o intervalo de confiança calculado com a distribuição t de Student, porque, neste caso, o intervalo obtido é exato e não aproximado como o obtido com o quantil da normal pelo TLC, mesmo quando ! ≥ 30.

4.4 Intervalo de Confiança para a Variância Populacional Em determinadas situações pode ser útil construirmos intervalos de confiança para a variância ou para o desvio padrão de uma população. Já vimos que a variância e o desvio populacional podem ser estimados através da variância e desvio padrão amostrais 1 σ =! = !−1 !

Marco Costa, ESTGA2012

!

!

!! − ! ! . !!!


39

Para construirmos intervalos de confiança para ! ! é necessário estudar a distribuição do seu estimador. A distribuição associada a S ! será diferente da distribuição normal ou da t de Student, de facto, S ! é obtido a partir de quadrados, logo só tomará valores não negativos. Prova-­‐se que para populações normais verifica-­‐se a distribuição (! − 1)! ! ! ~!(!!!) !! ! onde !(!!!) representa a distribuição de Qui-­‐Quadrado com ! − 1 graus de liberdade. A

distribuição de Qui-­‐Quadrado é uma distribuição assimétrica, que só toma valores positivos e para a qual também existem tabelas com os respectivos quantis. Contrariamente aos intervalos de confiança da média populacional, os intervalos de confianças usuais da variância (ou desvio padrão) populacional não são simétricos relativamente à estimativa pontual.

! !(!)

! ×100% 2

! ×100% 2

(1 − !)×100% !!⬚;!

⬚ !!! ! ;!

!

!

Ilustração 4-­‐3:Distribuição de Qui-­‐Quadrado e quantis de probabilidade.

Podemos escrever ! ! !;!−1 ≤ 2

(! − 1)! ! ≤ ! 1−!;!−1 = 1 − ! 100% !! 2

isto é, !

!!! ×!""%

!! =

! − 1 !! ! − 1 !! , . ! 1−!;!−1 ! !;!−1 2

2

Caso se pretenda um intervalo de confiança para o desvio padrão, então basta calcular as raízes quadradas dos limites do intervalo anterior, !

!!! ×!""%

! =

! − 1 !! , ! 1−!;!−1 2

! − 1 !! . ! !;!−1 2

Marco Costa, ESTGA2012


40

Os quantis da distribuição de Qui-­‐Quadrado podem obter-­‐se através de tabelas de probabilidades existentes para alguns valores de ! e para as principais confianças usadas. No entanto, os quantis podem ser obtidos a partir do PASW Statistics, do mesmo modo que as distribuições normal e t de Student, ou no do Excel através das funções dist.chi() e inv.chi(), !

! !−1;! = inv.chi 1 − ; ! − 1 e ! !−1;1−! = inv.chi 2

2

2

! 2

; ! − 1 .

Para ! ≥ 30 pode fazer-­‐se uma aproximação atendendo ao Teorema Limite Central, isto é, ! !! ~!(!, 2!).

4.5 Intervalo de Confiança para uma Proporção Muitas vezes estamos interessados em estimar a proporção (uma percentagem) da população que possui uma dada característica. Por exemplo, a percentagem dos eleitores que votam num dado partido, a percentagem dos clientes de uma empresa que pagam a pronto pagamento, etc. Considerando que ! é a proporção que se pretende estimar, dada uma amostra, como já vimos, a estimativa pontual para ! é a frequência relativa ! da característica em estudo que se verifica na amostra,

pˆ = f . A distribuição de ! é aproximadamente normal para amostras grandes (neste caso alguns autores mantêm a dimensão mínima de 30, outros são mais conservadores e estabelecem um mínimo de 50) e, neste caso, tem-­‐se, a

! ~ ! !,

! 1−! !

.

Na prática. a proporção ! é desconhecida (por isso é que a pretendemos estimar) mas se a amostra é grande pode ser substituída pela sua estimativa, obtendo-­‐se !! =

!(1 − !) . !

Assim, para grandes amostras temos o intervalo de confiança a 1 − α ×100% dado por ! = ! ± !!!! !! ou ! = ! ± !!!! !! !

!

!−! . !−1

caso se trate de uma população de uma população infinita ou finita, respectivamente. Marco Costa, ESTGA2012


5 Introdução à Amostragem Quando a população alvo do estudo é infinita, bastante numerosa ou inacessível na totalidade, estuda-­‐se uma amostra à qual se aplicam técnicas de inferência estatística para extrapolar propriedades desta para a população. Por vezes, a população é finita e acessível mas outras condicionantes como os custos e o tempo levam a que o estudo incida sobre uma amostra em vez da análise da totalidade dos elementos da população. Para que as propriedades da população possam ser inferidas com alguma confiança a partir de uma amostra, esta deverá ser “representativa” da população. De uma forma simplista, podemos dizer que uma amostra é representativa de uma população se as conclusões estatísticas obtidas a partir dela são similares às que se obteriam se a análise recaísse sobre todos os elementos da população.

5.1 Planos de Amostragem Do ponto de vista estatístico existem algumas metodologias que permitem “controlar” a representatividade de uma amostra, dentro do carácter aleatório das variáveis em estudo. Os métodos de recolha de amostras dividem-­‐se em dois grandes grupos: os métodos aleatórios e os métodos não aleatórios. Os métodos de amostragem não aleatórios têm uma vertente muito pragmática ou intuitiva visando regra geral a rapidez e os baixos custos. Nestes métodos, pela sua própria natureza, é mais complicado validar os resultados do ponto de vista estatístico/científico porque não se pode garantir que alguns pressupostos são cumpridos.


42

Os métodos aleatórios permitem, regra geral, indicar um grau de confiança na análise de resultados, uma vez que o carácter aleatório das amostras possibilita a aplicação de resultados probabilísticos. De seguida iremos explicitar alguns dos planos de amostragem aleatórios mais aplicados. Amostragem aleatória simples – qualquer amostra de uma determinada dimensão tem

igual probabilidade de ser selecionada. A obtenção de uma amostra deste tipo recorre habitualmente à numeração dos elementos da população sendo a seleção dos elementos da amostra obtida por extração aleatória (por exemplo, recorrendo a um software ou uma tabela de números aleatórios). Este método é o mais simples e serve de base a todos os outros, mas nem sempre fácil de implementar. NOTA: os resultados anteriores sobre a construção de intervalos de confiança assumem que a amostra é aleatória simples. Amostragem sistemática – este método de amostragem é geralmente adoptado

quando está disponível uma lista completa dos membros da população, por exemplo, quando os elementos da população estão ordenados segundo algum critério, como fichas de um arquivo, lista telefónica, etc. Os elementos da amostra são escolhidos de forma regular, avançando-­‐se progressivamente na lista. Por exemplo, se a população tiver 1000 elementos e pretendermos uma amostra de dimensão 200, como 1000/200=5, a amostra poderia ser constituídas pelos elementos das posições 2, 7, 12, …, 997 da lista ordenada.

Amostragem estratificada – consiste em dividir a população em grupos homogéneos e

mutuamente exclusivos, chamados estratos, e selecionando amostras aleatórias simples em cada estrato. Amostragem por “clusters” ou por grupos – neste tipo de amostragem a população

está dividida em grupos, como na amostragem estratificada, mas em que cada grupo funciona como uma micro-­‐população. Procede-­‐se a uma amostra aleatória simples dos clusters (e não dos elementos da população como na amostragem estratificada) incluindo na amostra todos os elementos dos clusters selecionados.

Marco Costa, ESTGA2012


43

De entre os métodos não aleatórios salientamos a amostragem intencional, a amostragem “bola de neve”, a amostragem por quotas e a amostragem por conveniência. •

Amostragem intencional – a amostra é constituída pelos elementos escolhidos intencionalmente pelo investigador. Estas situações ocorrem quando o investigador está convencido, com base num conjunto de conhecimentos prévios, que aqueles elementos possuem características representativas da população. Por exemplo, quando um centro de sondagens escolhe algumas freguesias que consideram representativas do voto a nível nacional num determinado tipo de eleição.

Amostragem “bola de neve” – é um tipo de amostragem intencional que começa com um grupo inicial de indivíduos aos quais é pedido que indiquem outros elementos a incluir na amostra. Este tipo de amostragem é adoptado quando se pretende estudar pequenas populações muito específicas, por exemplo “os sem abrigo”.

Amostragem por quotas – a amostra é obtida dividindo a população em grupos, categorias ou estratos e selecionando-­‐se um número fixo de elementos, não aleatório (a quota) de cada grupo, geralmente na mesma proporção verificada na população para esse grupo.

Amostragem por conveniência – os elementos da amostra são escolhidos por conveniência ou facilidade. Por exemplo, quando se inquirem as pessoas que passam num determinado local num determinado período de tempo.

5.2 Determinação da Dimensão da Amostra De seguida iremos abordar a determinação da dimensão da amostra a recolher quando pretendermos “controlar” o erro, isto é, a diferença entre o verdadeiro parâmetro e a respectiva estimativa. Quando o estudo é baseado num inquérito ou na recolha de mais do que uma variável, deve-­‐se calcular a dimensão da amostra para as variáveis principais, escolhendo-­‐se a maior dimensão obtida, de modo a garantir as especificações para todas. Nos cálculos seguintes iremos considerar que a amostragem adoptada é a aleatória simples.

Marco Costa, ESTGA2012


44

5.2.1 Dimensão da Amostra para Estimar a Média de uma População Como já vimos, em populações normais, ou para grandes amostras, o intervalo de confiança a 1 − ! ×100% para a média de uma população é dado por ! = ! ± !!!! !

! !

.

Se considerarmos o erro amostral máximo d = µμ − X que admitimos para uma confiança de 1 − ! ×100%, podemos determinar a dimensão da amostra pela expressão

!=

! ! !!! ! ∙! !

!!

.

onde •

! é o erro amostral máximo que admitimos;

z!!! é o valor da normal padrão; !

!

σ é a variância da população. Este valor ou uma estimativa pode ser obtido através de

especificações técnicas, obtido a partir de estudos anteriores ou estimado a partir de amostras piloto. Se a população alvo for finita, tal como nos intervalos de confiança, deve-­‐se introduzir um factor de correção. Considerando uma população com N elementos, a amostra a recolher deverá ter a dimensão

!=

! ! !!! ! ∙! ∙! !

!!

! ! ! − 1 + !!! ! ∙!

.

!

5.2.2 Dimensão da Amostra para Estimar uma Proporção Se a variável principal for uma variável nominal ou ordinal, podemos estar interessados em estimar uma proporção, neste caso, se pretendermos obter um intervalo de confiança a 1 − ! ×100% com um erro máximo ! , a dimensão da amostra deverá ser

!=

Marco Costa, ESTGA2012

! !!! ! ∙ !(1 − !) !

!!

.


45

onde ! é uma estimativa da verdadeira proporção a estimar. Caso não se disponha desta estimativa deverá usar-­‐se ! = 50%, obtendo-­‐se o maior tamanho da amostra para ! e para a confiança determinada. Se a população tiver dimensão finita ou não se possa considerar muito grande a expressão anterior deverá ser corrigida para atender a este facto. Assim, neste caso, temos

!=

! !!! ! ∙ !(1 − !) ∙ ! !

!!

! ! − 1 + !!! ! ∙ !(1 − !)

.

!

De igual modo, quando uma estimativa ! não for conhecida deverá considerar-­‐se ! = 50%.

Marco Costa, ESTGA2012



6 Testes de hipóteses Os testes de hipóteses são uma importante ferramenta estatística nos processos de tomada de decisão. Um teste de hipótese consiste numa inferência sobre a população, confrontando duas hipóteses sobre parâmetros da população: a hipótese nula H! contra a hipótese alternativa H! . Os testes mais aplicados são os testes à média ou variância de uma população ou a uma proporção.

6.1 Hipóteses e Valor-­‐p Com base numa amostra pretendemos testar a hipótese de que o saldo médio (!) das contas de uma agência bancária é igual a 425€ contra a hipótese de que este seja diferente deste valor H! : ! = 425 versus H! : ! ≠ 425. Num problema destes pretende-­‐se tomar uma decisão com base numa amostra, em que se aceita a hipótese nula, rejeitando a hipótese alternativa, ou se rejeita H! a favor de H! . Num processo de decisão deste tipo podemos cometer 2 tipos de erros: •

Erro do tipo I -­‐-­‐ ! -­‐-­‐: rejeita-­‐se a hipótese nula H! sendo esta, de facto, verdadeira;

Erro do tipo II -­‐-­‐ ! -­‐-­‐: aceita-­‐se a hipótese nula H! sendo esta, de facto, falsa.


48

À probabilidade 1 − ! chamamos potência do teste de hipóteses e representa a probabilidade de rejeitar uma hipótese nula quando esta é de facto falsa, isto é, uma decisão correta. O ideal seria tomar uma decisão de modo a que ambos os erros fossem minimizados, no entanto, tal objectivo é difícil de atingir. De facto, quando diminuímos um dos erros tendencialmente aumentamos o outro. Na prática tentamos controlar o erro de tipo I – a significância !. Isto é, na maioria das vezes admitimos que o erro (significância) de rejeitarmos uma hipótese nula verdadeira não deve exceder um limite pré-­‐estabelecido, por exemplo, 1%, 5%, 10%, etc. Retomemos o exemplo anterior. Admitamos que foi observada uma amostra com 150 contas bancárias a partir da qual se obteve um saldo médio amostral de 434,76€ e um desvio padrão amostral de 54,38€. Pretende-­‐se testar H! : ! = 425 versus H! : ! ≠ 425 admitindo uma significância de ! = 5%. Como a amostra tem bastantes observações (>>30) podemos adoptar a distribuição assintótica pelo TLC para a média amostral, isto é,

!!"#$" =

! − µμ a ~ ! 0,1 . ! !

Repare que a hipótese nula deve ser rejeitada a favor da hipótese alternativa H! : µμ ≠ 425 se o valor observado da estatística de teste !!"# for “grande” em valor absoluto, admitindo H! como verdadeira. Como estabelecemos uma significância de ! = 5% devemos rejeitar H! a favor de H! se Z!"# <-­‐1,96 ou Z!"# >1,96. Os valores da estatística de teste a partir dos quais de rejeita H! dizem-­‐se os valores críticos. Neste caso temos Z!"# =

Marco Costa, ESTGA2012

434,76 − 425 = 2,198. 54,38 150


49

Ilustração 6-­‐1: Valores críticos e regiões de rejeição e de aceitação de um teste bilateral.

Como Z!"# =2,198>1,96, concluímos pela rejeição da hipótese nula de que o saldo médio das contas bancárias seja igual a 425€, isto é, aceitamos que o saldo médio seja diferente desse valor, para uma significância de 5%. O exemplo anterior contempla uma hipótese alternativa do tipo bilateral (teste bilateral), isto é, com uma desigualdade do tipo ≠. No entanto, por vezes estamos interessados em considerar hipóteses alternativas com desigualdades do tipo “<” ou”>”, isto é, um teste unilateral.

H1 : µ < c

H1 : µ > c

Ilustração 6-­‐2: Regiões de aceitação/rejeição de testes unilaterais.

Marco Costa, ESTGA2012


50

Um conceito muito útil é o de valor-­‐p de um teste de hipóteses. Considere o teste de hipóteses H! : ! = 425 versus H! : ! > 425 isto é, um teste unilateral à direita. Com os dados anteriores, temos Z!"# =2,198 e ! ! > !!"# = ! ! > 2,198 = 1,4%.

Ilustração 6-­‐3: Região crítica de uma teste unilateral à direita.

Repare que se considerarmos uma significância inferior a 1,4% aceitamos H! , rejeitando no caso contrário. À probabilidade da(s) cauda(s) associada(s) ao valor observado da estatística de teste dá-­‐se o nome de valor-­‐p. Assim, podemos dizer que o valor-­‐p é o menor nível de significância ! em que a hipótese nula pode ser rejeitada. O valor-­‐p para testes bilaterais é obtido pelo dobro da probabilidade da cauda obtida a partir do valor observado da estatística de teste, isto porque, num teste bilateral, a significância é dividida entre as duas regiões de rejeição.

6.2 Testes de Hipóteses para a Média de uma População Num teste de hipóteses, estas podem ser estabelecidas pelo problema em questão ou pelo analista. Em cada teste é necessário escolher a estatística de teste adequada às hipóteses a testar. Para testarmos hipóteses relativas à média ! de uma população a escolha da estatística de teste é análoga à escolha da distribuição para a construção de intervalos de confiança, que já vimos anteriormente.

Marco Costa, ESTGA2012


51

População normal com desvio padrão desconhecido (! < 30) – Teste t

!= !

!−! ~!(!!!) !

Qualquer população e ! ≥ 30 -­‐ Teste Z

!= !

!−! a ~ ! 0,1 . !

Usualmente pretende-­‐se teste se a média populacional ! é igual a um valor !! , H! : ! = !! . Para cada hipótese alternativa e considerando uma significância de !100%, decide-­‐se da seguinte forma: •

H! : ! > !! rejeita-­‐se H! se !!"# > !!!!;!!! ;

H! : ! < !! rejeita-­‐se H! se !!"# < !!!!;!!! ;

H! : ! ≠ !! rejeita-­‐se H! se !!"# > !!!!;!!! ou !!"# < !!;!!! . !

!

Analogamente se a distribuição for a normal padrão.

6.3 Teste de Hipóteses para a Variância de uma População Os testes de hipóteses para testar hipóteses sobre a variância de população normal são construídos através da estatística de teste !! =

(! − 1)! ! ! ~!(!!!) . !!

Relativamente à variância de uma população normal os testes mais usuais são os unilaterais à direita, isto é, a hipótese alternativa mais testada consiste em testar se a variância de uma dada população é superior a um dado valor. Isto é, H! : ! ! = !!! versus H! : ! ! > !!! embora se possam formular testes unilaterais à esquerda ou mesmo bilaterais: H! : ! ! > !!! ou H! : ! ! ≠ !!! , respectivamente.

Marco Costa, ESTGA2012


52

Para cada hipótese alternativa e considerando uma significância de !100%, decide-­‐se da seguinte forma: •

! H! : ! ! > !!! rejeita-­‐se H! se !!"# > !!!!;!!! ;

! H! : ! ! < !!! rejeita-­‐se H! se !!"# < !!;!!! ;

! ! H! : ! ! ≠ !!! rejeita-­‐se H! se !!"# > !!!!;!!! ou !!"# < ! !;!!! !

!

Note que se podem testar hipóteses sobre o desvio padrão populacional através dos testes à variância uma vez que ! = ! ! .

6.4 Teste de Hipóteses para uma Proporção Quando se formula um teste de hipóteses sobre uma proporção de uma população H! : ! = !! versus H! : ! ≠ !!

H! : ! > !!

H! : ! < !!

pode-­‐se adoptar a estatística de teste análoga à utilizada na construção do respectivo intervalo de confiança. Se a dimensão da amostra é superior ou igual a 30 (! ≥ 30) adoptamos a estatística de teste !=

onde !! =

!! (!!!! ) !

! − !! a ~ !(0,1) !!

. A decisão de aceitação ou rejeição da hipótese nula é similar aos testes

para a média populacional.

6.5 Teste de Hipóteses para a igualdade de Duas Variâncias Admitamos que se pretende testar se duas variâncias !!! e !!! de duas populações normais ! ! e ! ! são iguais com base em duas amostras independentes (!!! , !!! , … , !!!! ) e (!!! , !!! , … , !!!! ), respectivamente. Neste caso, e caso se pretenda um teste bilateral, formula-­‐se um Teste F do tipo H! :

Marco Costa, ESTGA2012

!!! !!! = 1 !"#$%$ H : ≠ 1. ! !!! !!!


53

A estatística de teste a usar é !!"#$"

!!! = ! ~!(!! − 1, !! − 1) !!

onde ! (!, !) representa a distribuição F (ou distribuição F de Snedcor) com graus de liberdade ! e !. Como para as outras distribuições também existem tabelas com os quantis desta distribuição ou, em alternativa, a função INVF() do Excel. Para o cálculo de probabilidades pode usar-­‐se a função DISTF(). A distribuição F é uma distribuição positiva e assimétrica que fica caracterizada por dois parâmetros (dois graus de liberdade). Se o valor observado da estatística de teste for grande significa que a variância !!! tende a ser maior a !!! . Se o valor observado da estatística de teste for pequeno, inferior a 1, indica que !!! tende a ser superior a !!! .

6.6 Teste de Hipóteses para a Igualdade de Duas Médias Se pretendermos comparar as duas médias !! e !! de duas populações !! e !! , com base em duas amostras independentes de cada uma das populações, podemos formular um teste do tipo H! : µμ! − µμ! = c versus H! : µμ! − µμ! ≠ c

H! : µμ! − µμ! > !

H! : µμ! − µμ! < !

Note que se pretendermos averiguar de duas populações têm a mesma média basta testar a hipótese H! : µμ! − µμ! = 0. A escolha da estatística de teste depende das condições verificadas em cada situação.

6.6.1 Teste Z Se as amostras são grandes, !! , !! > 30, podemos aplicar o TLC obtendo-­‐se uma estatística de teste com distribuição assimptótica normal. Neste caso, ambas as populações poderão ter quaisquer distribuições. Por exemplo, para o teste H! : µμ! − µμ! = ! versus H! : µμ! − µμ! ≠ !

Marco Costa, ESTGA2012


54

a estatística de teste a adoptar é !=

!! − !! − !

a

~ ! 0,1 .

!!! !!! + !! !! Quando se aplica esta estatística designa-­‐se habitualmente o teste por teste Z para duas médias . Quando se pretende testar a igualdade entre as duas médias considera-­‐se ! = 0.

6.6.2 Teste t e Teste t modificado Quando dispomos de amostras pequenas e em que as populações têm distribuição normal, não podemos utilizar a distribuição normal como aproximação para a distribuição da estatística de teste. De facto, iremos abordar duas situações: populações com variâncias iguais e populações com variâncias desiguais, ambos os casos terão a distribuição t de Student para a estatística de teste, diferindo no cálculo dos graus de liberdade. Note-­‐se que estes testes podem ser aplicados quando as populações são normais e para amostras grandes, sendo que, neste caso, as distribuições das estatísticas de teste exatas. No entanto, os resultados serão muito semelhantes ao teste Z. •

Variâncias iguais !!! = !!! -­‐ Teste t para duas médias Na prática devemos aplicar o teste F para aferirmos da igualdade das variâncias. Caso

!!! = !!! = ! ! podemos obter uma estimativa mais precisa para ! ! através das duas amostras, isto é, uma estimativa da variância amostral comum !!! !!! =

!!! !! − 1 + !!! (!! − 1) . !! + !! − 2

Neste caso, adopta-­‐se a estatística de teste !=

!! − !! − ! !!! !!! + !! !!

~!(!! !!! !!) .

Marco Costa, ESTGA2012


55

Variâncias desiguais !!! ≠ !!! – TESTE t modificado

Se não pudermos considerar que as variâncias são idênticas a distribuição da estatística de teste anterior já não terá uma distribuição t de Student, embora esta possa ser aplicada como aproximação. Neste caso, dever-­‐se-­‐á adoptar a distribuição t de Student mas com um número de graus de liberdade diferente. Os graus de liberdade deverão ser arredondando-­‐ se para o menor inteiro a partir do valor

g .l. =

2

⎛ s12 s 22 ⎞ ⎜ + ⎟ ⎜ n n ⎟ 2 ⎠ ⎝ 1

2

2

⎛ s12 ⎞ ⎛ s 2 ⎞ ⎜ ⎟ / (n1 − 1) + ⎜ 2 ⎟ / (n2 − 1) ⎜ n ⎟ ⎜ n ⎟ ⎝ 1 ⎠ ⎝ 2 ⎠

Neste caso, !=

!! − !! − ! !!! !!

+

~!(!.!.) .

!!! !!

6.6.3 Teste t para amostras emparelhadas Quando se comparam as médias de duas populações com o objectivo de aferir se a eventual diferença entre elas se deve a um determinado factor, muitas vezes recorre-­‐se a amostras emparelhadas. Uma amostra (!!,! , !!,! ), com ! = 1,2, … , ! diz-­‐se amostra emparelhada se cada elemento de uma amostra está ligado ou emparelhado a outro elemento da outra amostra (note o mesmo índice ! em ambas as observações). Por exemplo, para a comparação de dois métodos pedagógicos convém tomar pares de alunos com a mesma capacidade intelectual e históricos académicos semelhantes, submetendo cada elemento do par a um dos métodos. Caso contrário, se se formassem dois grupos de alunos, sujeitando-­‐se cada grupo a um método, o resultado da experiência pode não refletir a verdadeira eficácia dos métodos, caso os grupos não sejam similares na sua constituição. Um dos exemplos mais comuns da utilização de amostras emparelhadas é no estudo da eficácia de medicamentos ou tratamentos médicos, em que o ideal é submeter o mesmo paciente a ambos

Marco Costa, ESTGA2012


56

os tratamentos. Caso contrário, outras características pessoais poderão afectar os resultados e iludirem os resultados dos medicamentos ou tratamentos. Considere-­‐se uma amostra emparelhada (!!,! , !!,! ), com ! = 1,2, … , !, composta por pares de observações independentes de populações normais !! ~!(!! , !!! ) e !! ~!(!! , !!! ). Pretendendo-­‐se testar um valor relacionado com a diferença entre !! e !! , constrói-­‐se uma nova variável !! = !!,! − !!,! cuja média amostral terá uma distribuição t de Student com ! − 1 graus de liberdade. Para testarmos !! : !! − !! = ! utilizamos a estatística !=

!! − !! − ! !!! !

~!(!!!) .

onde !!! é a variância amostral da variável ! = !! − !! .

6.7 Teste de Hipóteses para a Comparação de Duas Proporções Por vezes é necessário comparar duas proporções de duas populações diferentes. Podemos formular os testes H! : !! − !! = ! versus H! : !! − !! ≠ c H! : !! − !! > ! H! : !! − !! < ! Novamente, admitindo amostras grandes !! , !! > 30, iremos adoptar uma estatística de teste com uma distribuição aproximadamente normal. Neste caso a estatística de teste é

Z=

Marco Costa, ESTGA2012

( f1 − f 2 ) − c f1 (1 − f1 ) f 2 (1 − f 2 ) + n1 n2

a

~ N (0,1) .


7 Associação e Correlação Neste capítulo iremos abordagem técnicas estatísticas para analisar uma eventual relação entre duas variáveis. Em inúmeras situações a análise das variáveis individualmente não é suficiente ou pode ser complementada com uma análise mais global obtendo-­‐se, desta forma, um estudo mais completo.

7.1 Teste do Qui-­‐Quadrado para a Independência de Dois Atributos Em muitas situações pretende-­‐se analisar a existência de uma possível associação ou a independência entre dois atributos. Estes atributos possuem várias categorias construindo-­‐se uma tabela de contingência com as frequências relativas aos dados amostrais. Por exemplo, pretende-­‐se determinar se existe associação entre a classificação que os consumidores atribuem a um novo produto (Acima da média, média ou abaixo da média) e o local onde residem (urbano ou rural). Dos 100 consumidores entrevistados obteve-­‐se a seguinte tabela das frequências absolutas. Classificação Acima da Média Média Abaixo da Média Total

Localização Urbana Rural 20 11 40 8 15 6 75 25

Total 31 48 21 100


58

Este problema pode ser resolvido através de um teste estatístico – o teste do qui-­‐ quadrado. Consideramos que queremos testar a independência entre dois atributos A e B com s e r categorias respectivamente. Com os dados amostrais constrói-­‐se uma tabela de contingência com as frequências absolutas como a que se segue.

!! … !! Totais

!! !!!

… …

!! !!!

!!! !• 1

!!" !• s

Totais !! • … !! • !

Onde !!∙ é igual à soma das frequências da linha ! e !∙! é a soma das frequências da coluna !. Na prática, pretendemos formular o seguinte teste de hipóteses: !! : os atributos A e B são independentes vs !! : existe associação entre A e B cuja estatística de teste é ∗ !!" − !!"

!

! = !,!

∗ !!"

!

~! ! !!!

× !!!

∗ !!" representa a frequência esperada admitindo a hipótese nula como verdadeira, sendo

calculada por ∗ !!" =

!!∙ ×!∙! . !

Se os atributos não forem independentes a estatística de teste ! ! assume valores elevados, isto é, rejeitamos !! se ! ! for superior ao valor crítico da distribuição do Qui-­‐ Quadrado com os graus de liberdade adequados. Note que quando se rejeita a hipótese de independência entre as variáveis considera-­‐se que, para o nível de significância adoptado, as variáveis evidenciam algum tipo de associação, ∗ mas não sabemos de que forma é esta relação. No entanto, a análise dos desvios !!" − !!"

Marco Costa, ESTGA2012


59

permite-­‐nos obter quais as classes ou categorias associadas. De facto, se um desvio é positivo significa que na amostra existe mais elementos nessa célula do que o esperado, se as variáveis fossem independentes, isto é, existe uma maior propensão para que os elementos da classe !! também estejam na classe !! . A aplicação do teste do qui-­‐quadrado (melhor dizendo a sua validação estatística) está condicionada à verificação de algumas condições (Cohran, 1954), tais como: nenhuma frequência esperada pode ser inferior a 1 e não mais do 20% das frequências esperadas sejam inferiores a 5. O teste do qui-­‐quadrado pode aplicar-­‐se a variáveis qualitativas nominais ou ordinais e/ou a variáveis quantitativas desde que estas últimas sejam categorizadas, isto é, sejam agrupadas em classes. Pode-­‐se realizar o teste do qui-­‐quadrado no PASW Statistics através do comando analyse>descriptive statistics>crosstabs>statistics>chi-­‐square.

7.2 Medidas de Associação Baseadas no Qui-­‐Quadrado Quando o teste do qui-­‐quadrado rejeita a independência de dois atributos pode ser útil quantificar o grau da associação verificada. Existem várias medidas de associação sendo que algumas delas são baseadas no ! ! . De facto, o valor de ! ! expressa já de alguma forma o grau de associação entre os atributos. Valores elevados de ! ! indicam desvios significativos em valor absoluto, isto é, que as frequências observadas da amostra diferem significativamente das frequências esperadas supondo a independência entre os atributos. Assim, valores grandes ! ! são favoráveis à rejeição da independência. De seguida iremos referir três coeficientes de associação baseados no qui-­‐quadrado direcionados para tabelas de contingência de variáveis nominais4, existindo, no entanto, outros coeficientes fora do âmbito deste texto.

4

Podem ser aplicados no caso de variáveis ordinais com alguma prudência, uma vez que não são os mais indicados nestes casos.

Marco Costa, ESTGA2012


60

O coeficiente ! (Phi) é calculado por

Φ=

!! !

sendo que apenas para tabelas de contingência 2×2 é que assume valores entre 0 e 1, sendo, por isso, o mais indicado para quantificar a associação entre duas variáveis binárias. O coeficiente de contingência ou C de Pearson é obtido por !! +!

!=

e varia entre 0 e

!!

! − 1 /! onde ! é o menor número de linhas ou de colunas.

O coeficiente V de Cramer é dado por

!=

!! !(! − 1)

onde ! representa o menor número de linhas ou de colunas. Este coeficiente tem como principal vantagem o facto de variar do mínimo 0 (independência) e 1 (associação). Os três coeficientes de associação referidos assumem o valor zero quando ! ! é nulo, isto é, no cenário de independência total. Assim, quanto maior for o valor de cada coeficiente mais nos afastamos da independência dos atributos. Um procedimento complementar para averiguar da existência de associação entre dois atributos consiste na formulação de testes de significâncias aos coeficientes de associação através da análise dos valores-­‐p assintóticos5 disponíveis no PASW Statistics e devolvidos após o comando analyse>descriptive statistics>crosstabs>statistics>chi-­‐square. Caso o valor-­‐p devolvido seja inferior à significância adoptada, rejeita-­‐se a hipótese de que o coeficiente de associação respectivo seja nulo, indicando, desta forma, a existência de associação.

5

Cujo cálculo algébrico está fora do âmbito desta disciplina.

Marco Costa, ESTGA2012


61

7.3 Coeficiente de Correlação Linear de Pearson O teste do qui-­‐quadrado e as medidas de associação referidas permitem analisar uma eventual relação entre variáveis nominais Em algumas situações é útil o estudo de uma possível relação entre duas variáveis métricas (intervalar ou de rácio). Uma possível relação entre duas variáveis métricas é designada por correlação (em vez de associação). Duas variáveis métricas X e Y podem relacionar-­‐se através de uma relação do tipo ! = ! ! . No entanto, quando estamos perante duas variáveis sobre as quais sabemos pouco e procuramos investigar uma possível relação, deve-­‐se começar por analisar uma relação simples, por exemplo, uma relação do tipo ! = ! + !". Quando investigamos uma eventual relação do tipo ! = ! + !" estamos a falar de uma eventual correlação linear entre as variáveis X e Y. Este estudo pode basear-­‐se em duas abordagens: análise do coeficiente de correlação linear de Pearson ou por uma análise gráfica (análise visual). Considerando que dispomos de pares ordenados !! , !! relativos à observação de n elementos amostrais, o coeficiente de correlação linear amostral de Pearson é dado por

!!"

1 ! =

! !!! !! !!

!! !!

− !!

onde S! e S! são os desvios padrão das duas variáveis, respectivamente. O coeficiente de correlação linear amostral pode ser obtido no Excel através da função PEARSON(). O coeficiente R de Pearson mede a correlação linear entre duas variáveis de rácio ou intervalar e não outro tipo de correlação. Este coeficiente varia entre −1 (correlação negativa perfeita) e 1 (correlação positiva perfeita), −1 ≤ ! ≤ 1.

Marco Costa, ESTGA2012


62

12

12

14

10

10

12

8

8

6

6

4

4

2

2

10 8 6

0

4 2 0

0

0

2

4

6

8

10

0

2

4

6

8

10

0

2

4

6

8

10

! ≈ −1 ! ≈ 0 ! ≈ 1 correlação linear negativa ausência de correlação linear correlação linear positiva Ilustração 7-­‐1: Interpretação do coeficiente de correlação linear de Pearson.

Note que o coeficiente ! não indica uma relação de causalidade, isto é, assume o mesmo valor considerando-­‐se uma relação ! = ! + !" ou ! = ! + !". Para uma dada amostra podemos ter dúvidas sobre a significância do coeficiente ! , isto é, se o valor amostral obtidos difere de zero apenas devido ao acaso associado ao processo de amostragem ou se, de facto, representa uma efectiva correlação entre as variáveis. Assim, é útil a aplicação de um teste de hipóteses sobre o coeficiente de correlação linear populacional designada por ! com uma hipótese nula do tipo !! : ! = 0 podendo-­‐se adoptar uma hipótese alternativa uni ou bilateral. Para este teste considera-­‐se a estatística de teste !!"#!" = ! − 2

! 1 − !!

~!(!!!) .

Este teste pressupõe que os dados são provenientes de populações normais pelo que se deverá ter alguma prudência na sua aplicação quando as variáveis são manifestamente assimétricas6.

6

Neste caso deve ser aplicado o coeficiente de correlação ordinal de Spearman referido na secção seguinte.

Marco Costa, ESTGA2012


63

O coeficiente ! pode ser obtido no PASW Statistics bem como o teste de significância através do comando analyse>correlate>bivariate. Alguns autores indicam algumas regras para a interpretação dos valores do coeficiente de correlação linear amostral de Pearson. Neste contexto, iremos adoptar a interpretação indicada em Pestana et al. (2000): •

|!| < 0,2

-­‐ correlação linear muito baixa;

0,2 < |!| < 0,4

-­‐ correlação linear baixa;

0,4 < |!| < 0,7

-­‐ correlação linear moderada;

0,7 < |!| < 0,9

-­‐ correlação linear alta;

0,9 < |!| < 1

-­‐ correlação linear muito alta.

7.4 Coeficiente de Correlação Ordinal de Spearman Quando não há evidência de que as variáveis ! e ! tenham distribuição normal, ou quando as variáveis estão medidas numa escala ordinal, utilizamos o coeficiente de correlação ordinal de Spearman. Neste caso, é necessário determinar a ordem de cada observação em cada amostra, por exemplo !! e !! as ordens das observações !! e !! , respectivamente. O coeficiente de correlação ordinal é dado por !! = 1 −

6 !!! !(!! − 1)

onde !! = !! − !! . Quando existe empates entre observações numa amostra atribui-­‐se, a cada observação, a média das ordens dessas observações. Tal como o coeficiente de correlação linear de Pearson −1 ≤ !! ≤ 1. Caso se pretenda testar a existência de correlação ordinal, !! : !! = 0 , com base numa amostra (! ≥ 10) utiliza-­‐se a estatística !!"#!" = ! − 2

!! 1 − !!!

~!(!!!) .

Marco Costa, ESTGA2012


64

Marco Costa, ESTGA2012


8 Regressão linear Os modelos de regressão são ferramentas muito aplicadas com o objectivo de modelar a relação entre duas ou mais variáveis. Pensando no caso mais simples de duas variáveis X e Y, em que se supõe que a variável Y tem uma relação de dependência com a variável X, podemos pensar num modelo de regressão simples ! = !(!) isto é, ! é a variável independente e ! é a variável dependente. Nalguns casos, a variável dependente ! pode ser considerada como uma função de ! variáveis independentes ou explicativas !! , !! , … , !! da forma ! = !(!! , !! , … , !! ) isto é, um modelo de regressão múltipla. A maioria dos fenómenos pode ser razoavelmente modelada por uma classe de modelos de regressão mais restrita: os modelos lineares. Os modelos de regressão linear, ou os que se podem modelar a partir destes, são o objecto de estudo do presente capítulo.


66

8.1 Modelos de regressão linear simples e múltipla O modelo de regressão linear simples é um dos modelos mais simples e mais aplicados na modelação de uma variável dependente em função de uma variável independente. Este modelo pressupõe que as variáveis em análise sejam correlacionadas linearmente, isto é, o coeficiente de correlação linear de Pearson deverá ser significativo. Considerando !! a variável independente e !! a variável aleatória dependente referentes ao elemento ! , o modelo de regressão linear simples é dado por !! = ! + !!! + !! onde ! e ! são parâmetros geralmente desconhecidos e que se pretende estimar e !! é uma variável aleatória que representa um erro aleatório que caracteriza o carácter aleatório da variável dependente. O erro aleatório !! corresponde às oscilações verificadas entre a variável dependente e a recta de equação ! = ! + !!, sendo que, admite-­‐se ter valor médio zero. O modelo de regressão linear simples é muitas vezes preferido a outros pela sua simplicidade e pela sua fácil identificação através de um gráfico de dispersão. Consideremos a amostra bivariada constituída pelas cotações (em €) em bolsa de dois títulos (COELECT e CODIST) de um mesmo grupo económico durante 17 dias cujo gráfico de dispersão se apresenta de seguida. 14 13 COELECT

12 11

10 9 8 7 6 9

10

11

12 CODIST

13

14

15

Ilustração 8-­‐1: Gráfico de dispersão das cotações de duas empresas de um mesmo grupo económico.

Marco Costa, ESTGA2012


67

Dado que as cotações anteriores são de duas empresas do mesmo grupo económico é de suspeitar que estejam de alguma forma relacionadas, isto é, são não independentes. Sempre que se pretender analisar uma possível relação entre duas variáveis métricas deve construir-­‐se um gráfico de dispersão dos dados, de forma a evidenciar essa possível relação. É patente no gráfico anterior que uma relação linear entre as duas variáveis representadas poderá ser um bom modelo explicativo para a relação entre estas, isto é, por exemplo7, !"#$#!%! = ! + ! ∙ !"#$%&! + !! com ! e ! constantes. A análise gráfica pode e deve ser acompanhada de uma avaliação da relação linear entre as variáveis através da análise do coeficiente de correlação linear amostral de Pearson. Neste caso, o coeficiente de correlação linear é igual a ! = 0,90, isto é, as variáveis apresentam uma correlação alta a muito alta. Depois de identificada uma eventual relação linear entre duas variáveis coloca-­‐se a questão de como estimar os parâmetros ! e ! , de modo a que a relação fique definida e possa servir, por exemplo, como modelo de predição. O método de estimação mais usado neste tipo de situações é o método dos mínimos quadrados. No método dos mínimos quadrados pretende-­‐se determinar as estimativas dos parâmetros de modo a minimizar a soma dos quadrados dos erros de predição, isto é, neste caso !

!

!!!

!"# =

=

!!!

!! − ! + ! !!

!

!!!

onde !! = !! = !! − !! é o erro de predição.

7

Neste caso a escolha da variável dependente é irrelevante uma vez que não estamos interessados em estabelecer uma relação de dependência estrita.

Marco Costa, ESTGA2012


68

10,00 9,00 8,00 7,00 yˆ k 6,00 5,00 yk 4,00 3,00 2,00 1,00 0,00 0,00

y = α + βx

ek

1,00

2,00

3,00

4,00

xk 5,00

6,00

7,00

8,00

Ilustração 8-­‐2: Regressão linear simples e erro de predição.

Prova-­‐se que as estimativas dos mínimos quadrados para uma amostra de pares ordenados (!! , !! ), com ! = 1, … , ! são iguais a !=!=

!

!! !! − ! !!! −

!! !! !! !

e !=!=

!! !!! − !! !! !! ! !!! − !! !

ou, em alternativa, pode escrever-­‐se na forma seguinte != onde !!" =

!! − ! !! − ! e !!! =

!!" e ! = ! − !! !!! !! − ! ! .

No caso do exemplo anterior, obtemos o modelo estimado !"#$#!%! = 1,3427 + 0,7471 ∙ !"#$%&! a partir do qual se poderão obter estimativas para a cotação COELECT dado um valor da cotação CODIST. Note que no modelo estimado não aparece o erro uma vez que assume-­‐se que este tem média zero. A recta estimada é usualmente designada por reta de regressão ou a recta que melhor se ajusta aos dados.

Marco Costa, ESTGA2012


69

O modelo de regressão linear simples normal assume que se verificam alguns pressupostos: 1. O termo !! é uma variável aleatória com média nula e distribuição normal; 2. As variáveis dependentes !! têm a mesma variância (homocedasticidade), isto é, os erros são da forma !! ~! 0, ! ! ; 3. Os erros !! são independentes entre si; 4. A linearidade entre a variável dependente e as variáveis independentes. No modelo de regressão linear simples supõe-­‐se que a variável dependente é explicada com base apenas numa única variável independente. Na maioria dos problemas é irreal pensar-­‐ se que uma variável é explicada essencialmente apenas por uma outra. O modelo de regressão linear múltipla permite incorporar mais variáveis independentes (variáveis exógenas ou covariáveis) mantendo uma estrutura linear semelhante ao modelo de regressão linear simples. O modelo de regressão linear múltipla (MRLM) pode escrever-­‐se da forma seguinte !! = !! !!! +!! !!! + ⋯ +!! !!" + !! onde !! , …, !! são ! parâmetros a estimar, !!" , com ! = 1, … , ! as ! variáveis independentes relativas à !-­‐ésima observação e !! é o erro aleatório da !-­‐ésima observação. Geralmente, a primeira variável independente do MRLM é constante e igual a 1, !!! = 1 com ! = 1, … , !, permitindo que o modelo tenha uma constante !! , o termo independente, !! = !! +!! !!! + ⋯ +!! !!" + !! . Considerando que se dispõe de ! observações, é usual escrever-­‐se as ! equações do modelo de regressão linear múltipla com termo independente sob a forma matricial como segue !! !!

!! !

=

1 1

⋮ 1

!! … !!! !! !! … !!! !! + ⋮ . ⋮ ⋮ ⋱ !! … !!" !!

!!" !!!

!!! !

!

!

Marco Costa, ESTGA2012


70

Um modelo de regressão, além de permitir obter predições para a variável dependente com base nas variáveis independentes, proporciona uma análise quanto ao impacto de cada variáveis independente na variável resposta. A constante ou termo independente !! pode ter algum significado atendendo ao facto que este valor representa uma estimativa de !! quando as variáveis independentes são nulas. O coeficiente !! , com ! = 2, . . , !, indica o impacto na variável dependente quando a variável !! sobre um aumento de uma unidade, considerando as restantes fixas. Os parâmetros desconhecidos são habitualmente estimados pelo método dos mínimos quadrados, como na regressão linear simples, só que neste caso através de cálculo matricial. Neste caso, não é habitual, ou mesmo possível, fazer uma representação gráfica do modelo estimado, uma vez que terá dimensão superior a 2. Prova-­‐se que, o estimador dos mínimos quadrados é igual a ! = ! = (! ! !)!! ! ! !. Pode ser útil obter uma estimativa para a variância, ! ! , dos erros aleatórios !! . Mostra-­‐se que um estimador para ! ! é !! =

1 ! ! ! !−!

onde ! é a matriz coluna com elemento !! = !! = !! − !! . No caso da regressão linear simples obtém-­‐se o estimador ! ! = ! ! =

! !!!

(!! − !! )! =

! !!!

[!! − (! + !!! )]! .

Considere que se pretende relacionar o número de passageiros mensais (Pass), em milhares, de uma companhia aérea com o investimento mensal em publicidade (Pub), em milhares de euros e o PIB (em triliões de euros) do país onde opera. Dispõe-­‐se de dados destas três variáveis relativas a 15 meses. Estes dados permitiram obter o seguinte modelo

Pass! = 3,528 + 0,840Pub! + 1,441PIB! . Este modelo indica que por cada milhar de euros investidos em publicidade estima-­‐se que o número de passageiros sofre um aumento de cerca de 840, considerando o PIB constante. Por outro lado, considerando o investimento em publicidade fixo, por cada trilião acrescido no PIB, estima-­‐se que o número de passageiros mensal tenha um acréscimo de 1,441 milhares.

Marco Costa, ESTGA2012


71

Com o modelo estimado pode obter-­‐se os valores esperados da variáveis dependente, como se mostra no gráfico seguinte. 30 25 20 15 10

N.º Pass. Previsto N.º Pass.

5 0 1

2

3

4

5

6

7

8

9

10 11 12 13 14 15

Mês

Ilustração 8-­‐3: Número de passageiros mensal e suas estimativas pelo modelo de regressão linear múltiplo.

A determinação das estimativas dos parâmetros do modelo de regressão linear simples e múltipla, bem como toda a inferência, está bastante facilitada com a utilização dos softwares disponíveis. O Excel dispõe a ferramenta Dados > Análise de Dados > Regressão, obtendo-­‐se os principais resultados para a análise. No PASW Statistics a análise de um modelo de regressão pode ser obtida com o comando Analyse > Regression > Linear.

8.2 Coeficiente de Determinação Após a determinação das estimativas dos parâmetros da regressão é útil avaliar o grau de ajustamento entre as observações !! e as suas predições !! . Um dos métodos mais usados é a análise do quadrado do coeficiente de correlação linear amostral entre !! e !! , a que se designa por coeficiente de determinação, ! ! . Assim, o coeficiente de determinação é dado por

! ! ! = !!! =

(!! − !)(!! − !)

!

(!! − !)! (!! − !)!

Prova-­‐se que 0 ≤ ! ! ≤ 1, sendo que quanto mais próximo de 1 melhor é o grau ajustamento, isto é, o modelo explica melhor a variação da variável dependente.

Marco Costa, ESTGA2012


72

Quando o modelo tem termo independente, é usual decompor-­‐se a variação total da variável dependente da forma (!! − !)! =

(!! − !)! +

!"#

(!! − !! )!

!"#

!"#

onde: -­‐ SQT é a variação total; -­‐ SQE é a variação explicada pelo modelo de regressão; -­‐ SQR é a variação residual, ou seja, a variação não explicada pelo modelo. Prova-­‐se que, para o modelo de regressão com termo independente, o coeficiente de determinação pode ser escrito na forma !! =

!"# !"# =1− . !"# !"#

Esta última formulação permite interpretar o coeficiente de determinação como sendo a proporção entre a variação explicada pelo modelo de regressão e a variação total da variável dependente. No entanto, apresenta um inconveniente: sempre que se acrescenta uma outra variável ao modelo, o coeficiente de determinação nunca decresce, mesmo que a nova variável tenha qualquer relação com a variável dependente. Para contornar este problema, alguns autores sugerem a análise do coeficiente de determinação ajustado, !! = 1 −

!"#/(! − !) . !"#/(! − 1)

neste caso, a introdução de uma nova variável no modelo pode não produzir um acréscimo no coeficiente de determinação ajustado. No entanto, este coeficiente apresenta como inconveniente o facto de poder ser negativo, contrariamente a ! ! . Para o seu cálculo pode usar-­‐ se a fórmula equivalente e computacionalmente mais conveniente !! = 1 − 1 − !!

Marco Costa, ESTGA2012

!−1 . !−!


73

Relativamente ao exemplo no número de passageiros com as duas variáveis independentes obtém-­‐se ! ! = 0,976 e ! ! = 0,945, ambos elevados, significando que o modelo se ajusta bem aos dados (facto esperado dado o gráfico anterior). Alguns softwares, como o PASW Statistics, indicam um valor-­‐p aproximado para o teste de significância dos coeficientes de determinação. Caso o valor-­‐p seja superior à significância adoptada pode concluir-­‐se que não há evidência estatística para se rejeitar a hipótese de que o coeficiente de determinação seja nulo, isto é, a proporção da variação da variável dependente explicada pelo modelo de regressão é muito baixa (possivelmente o modelo não é adequado).

8.3 Inferência sobre os parâmetros de regressão A estimação dos coeficientes de regressão, e a subsequente especificação do modelo, pode não ser suficiente para uma análise mais eficiente sobre o relacionamento entre variáveis. Por vezes, pretende-­‐se testar se a variável dependente reflete de facto as variações das variáveis independentes, isto é, se uma variável exógena contribui efetivamente para explicar a variável dependente. Na prática, esta análise pode ser feita através de testes de hipóteses sobre os parâmetros da regressão. Um primeiro teste pode querer testar se o modelo de regressão estimado tem algum significado do ponto de vista explicativo da variável dependente, isto é, se alguma das variáveis exógenas está relacionada com a variável resposta. Se uma variável exógena !! não está relacionada com a variável dependente o seu coeficiente no modelo deverá ser nulo !! = 0. Assim, numa primeira fase podemos testar a nulidade de todos os parâmetros do modelo de regressão em alternativa com a hipótese de que pelo menos um não é nulo,

!! : !! = !! = ⋯ = !! = 0. !" !! : pelo menos um ! não é nulo As hipóteses anteriores podem ser testadas através da estatística de teste !=

! ! /(! − 1) !"#/(! − 1) = ~! . ! (1 − ! )/(! − !) !"#/(! − !) (!!!,!!!)

Marco Costa, ESTGA2012


74

Caso o valor observado da estatística de teste seja superior ao quantil da distribuição !, para a significância adoptada, rejeita-­‐se a hipótese nula, considerando-­‐se que pelo menos uma das variáveis exógenas tem uma contribuição significativa para a explicação da variável dependente. Continuando o exemplo anterior da modelação do número de passageiros, obtemos !=

0,976/(3 − 1) = 121,184 (1 − 0,976)/(15 − 3)

e, considerando uma significância de 5%, o quantil da distribuição ! é !!"%;(!,!") = 3,885, pelo que, sendo !!"# > !!"%;(!,!") rejeitamos a hipótese nula. Note que o modelo de regressão estimado tem o termo independente, isto é, é o mesmo que considerar uma variável independente constante e igual a 1, considerando-­‐se, no total, 3 variáveis independentes. A tabela da ANOVA (Analysis of Variance) resume num quadro as várias fontes de variação dos dados, nomeadamente neste caso, a variação total (SQT), a variação explicada pelo modelo de regressão (SQE) e a variação residual (SQR). Como a estatística de teste pode ser calculada com base em SQR e SQE, esta tabela permite obter rapidamente a resposta ao teste de hipóteses. A generalidade dos softwares apresenta a tabela da ANOVA como a que segue. Soma dos Graus de quadrados liberdade Médias quadráticas Valor-­‐p ! Regressão SQE ! − 1 !"# = !"#/(! − 1) !!"#$" = !"#/!"# Residual SQR ! − ! !"# = !"#/(! − !) Total SQT ! − 1 Tabela 8-­‐1: Tabela da ANOVA para o modelo de regressão linear. Relativamente ao exemplo anterior obtemos a tabela seguinte, com os valores coincidentes com os já calculados. Soma dos Graus de Médias quadrados liberdade quadráticas Valor-­‐p ! 163,632 2 81,816 Regressão 121,184 0,000 8,102 12 0,675 Residual 171,733 14 Total

Marco Costa, ESTGA2012


75

Caso o teste anterior rejeite a hipótese nula o passo seguinte será testar a significância de cada um dos parâmetros. Esta etapa permitirá remover variáveis do modelo para as quais não exista evidência de que contribuam de uma forma significativa para explicar a variação da variável dependente. Sempre que possível, devemos incorporar variáveis num modelo de regressão com parcimónia, uma vez que modelos simples são preferíveis a modelos mais complexos. Para testarmos a significância do coeficiente !! , com ! = 1, … , !, formulamos as hipóteses !! : !! = 0 !" !! : !! ≠ 0 ou, uma hipótese alternativa unilateral, caso se pretenda. Prova-­‐se que, para o modelo de regressão linear normal, verifica-­‐se a relação !! − !! ~!(!!!) !!!

!=

onde !!! = ! !!! é o erro padrão (“Std. Error”) de !! e !!! é o !-­‐ésimo elemento da diagonal principal da matriz (! ! !)!! . Considerando a hipótese nula formulada a estatística de teste simplifica-­‐se, obtendo-­‐se ! = !! /!!! . Estes cálculos estão facilitados pelas ferramentas já disponíveis. Por exemplo, o PASW Statistics e o Excel disponibilizam um relatório semelhante à tabela seguinte.

Coeficientes Modelo

!!!

!! Termo Ind.

Intervalo de Confiança a 95%para ! t

Valor-­‐p Limite inferior

Limite Superior

3,528

,999 3,530 ,004

1,351

5,706

Pub.

,840

,142 5,917 ,000

,530

1,149

PIB

1,441

,736 1,958 ,074

-­‐,163

3,045

Tabela 8-­‐2: Tabela resumo do ajustamento de um modelo de regressão linear múltipla.

Note que, para uma significância de 5% pode considerar-­‐se o coeficiente do PIB no modelo nula, uma vez que o valor-­‐p é superior a 5% ou, de modo equivalente, o zero pertence ao intervalo de confiança a 95%. Caso se pretenda modelos simples, poder-­‐se-­‐ia retirar esta

Marco Costa, ESTGA2012


76

variável, obtendo-­‐se um modelo de regressão linear simples, cujos parâmetros teriam de ser novamente estimados. Algumas aplicações, é usual adoptar-­‐se significâncias superiores aos habituais 5% para que, deste modo, o modelo possa integrar variáveis independentes com mais flexibilidade para que se possa aferir a sua relação com a variável dependente, mesmo que esta seja fraca, a uma significância habitual de 5%.

Marco Costa, ESTGA2012


Bibliografia Costa M (2004). Estatística. Texto de Apoio, ESTGA. Guimarães RC, Cabral JAS (1997). Estatística, McGraw-­‐Hill. Maroco J (2010). Análise Estatística com o PASW Statistics (ex SPSS), ReportNumber. Murteira B (1993). Análise Exploratória de Dados –Estatística Descritiva, McGraw-­‐Hill. Murteira B, Ribeiro CS, Silva JA, Pimenta C (2002). Introdução à Estatística, McGraw-­‐Hill. Pestana MH, Gageiro JN (2000). Análise de Dados para Ciências Sociais. A complementaridade do SPSS, 2ª Ed., Edições Sílabo. Webster A (2006). Estatística Aplicada à Administração e Economia, McGraw-­‐Hill.



Índice Remissivo

amostra, 3 aleatória simples, 32 emparelhada, 55 Amostragem “bola de neve”, 43 aleatória simples, 42 estratificada, 42 intencional, 43 por “clusters”, 42 por conveniência, 43 por quotas, 43 sistemática, 42 amplitude, 14 inter-­‐quartis, 14 Análise de Dados, 16 ANOVA, 74 caixa-­‐de-­‐bigodes, 19 classe, 10 mediana, 18 modal, 18 coeficiente C de Pearson, 60 de achatamento, 16 de assimetria, 15 de contingência, 60 de correcção linear amostral de Pearson, 61 de correlação ordinal, 63 de determinação, 71 de determinação ajustado, 72 de variação, 15 V de Cramer, 60 Φ, 60 correlação, 61 covariáveis, 69 cronogramas, 21 curtose, 16 curva gaussiana, 25 dados, 2

dicotómicos, 6 dicotomizados, 6 decil, 14 desvio padrão, 15 dimensão, 10 dist.chi(), 40 dist.norm, 28 distribuição, 24 de frequências, 10 de probabilidade, 24 de Qui-­‐Quadrado, 39 F, 53 gaussiana, 25 leptocúrtica, 16 mesocúrtica, 16 normal, 25 normal padrão, 28 platocúrtica, 16 t de Student, 36 distt(), 38 erro amostral, 4 do tipo I, 47 do tipo II, 47 padrão, 35 escala de intervalo, 5 de medida, 4 de rácio, 5 nominal, 4 ordinal, 4 Estatística, 3 amostral, 13 de ordem, 14 Descritiva, 2 Inferencial, 2 populacional, 13 estimador, 32 estimativa, 32 intervalar, 34


80

pontual, 32 estudo piloto, 7 preliminar, 7 estudo estatístico, 6 extremos, 10 fontes directas, 6 indirectas, 6 frequência absoluta, 10 absoluta acumulada, 10 relativa, 10 relativa acumulada, 10 função de distribuição da normal padrão, 28 gráfico circular, 21 de barras, 20 de dispersão, 66 de linhas, 21 graus de liberdade, 36 histograma, 20 informação, 2 inquéritos, 6 inspecção dos dados, 9 intervalo de confiança, 34 inv.chi(),, 40 inv.norm, 28 inv.normp, 28 invt(), 38 marca da classe. Consulte ponto médio máximo, 10 média agrupada, 18 aparada, 13 aritmética, 13 ponderada, 13 mediana, 13 medida de dispersão, 14 medidas de assimetria e de achatamento, 15 Marco Costa, ESTGA2012

de associação, 59 de tendência central, 13 método dos mínimos quadrados, 67 métodos aleatórios, 41 não aleatórios, 41 mínimo, 10 moda, 13 modelos probabilísticos, 23 nível de confiança, 34, 36 de mensuração, 4 ordenação, 9 outlier, 13 moderado, 19 severo, 19 parâmetro, 3 percentil, 14 ponto médio, 17 população, 3 potência, 48 quartis, 14 questionários, 6 recta de regressão, 68 regra de Sturges, 11 relatório estatístico, 8 representatividade, 4 série temporal, 21 significância, 36, 48 sucessão cronológica, 21 tabela de contingência, 12 de frequências, 10 técnicas de estatística descritiva, 2 de inferência estatística, 2 Teorema Limite Central, 29 teste bilateral, 49 do qui-­‐quadrado, 58 F, 52


81

t, 51 t modificado, 55 t para duas médias, 54 unilateral, 49 Z, 51 Z para duas médias, 54 universo, 3 valores críticos, 48

valor-­‐p, 50 variância, 14 variáveis exogénas, 69 variável, 3 aleatória, 23 contínua, 4 discreta, 4 quantitativa, 4

Marco Costa, ESTGA2012


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.