Apontamentos Estatistica

Page 1

ÍNDICE 1. ESTATÍSTICA DESCRITIVA .................................................................................................. 1 1.1. INTRODUÇÃO ............................................................................................................................ 1 1.2. DEFINIÇÕES ............................................................................................................................... 1 1.3. CLASSIFICAÇÃO DOS DADOS ..................................................................................................... 2 1.4 CARACTERIZAÇÃO DOS DADOS ................................................................................................. 3 1.5 ESTATÍSTICAS AMOSTRAIS ........................................................................................................ 10 1.5.1. Medidas de localização ............................................................................................................................... 10 1.5.2. Medidas de dispersão................................................................................................................................... 16 1.6. DADOS BIVARIADOS ................................................................................................................ 22 1.6.1.Regressão linear simples .............................................................................................................................. 23 1.6.2. Correlação. Coeficiente de determinação.................................................................................................. 24 1.6.3. Método dos mínimos quadrados................................................................................................................ 25

ii


E S T A T Í S T I C A

D E S C R I T I V A

Capítulo

1 1. Estatística Descritiva 1.1. Introdução A estatística é uma disciplina cujo objecto principal é a recolha, a compilação, a análise e a interpretação de dados. No sentido de clarificar o que se entende por análise e interpretação dos dados vamos desde já estabelecer uma distinção entre estatística descritiva e inferência estatística. No âmbito da estatística descritiva procura-se sintetizar e representar de uma forma compreensível a informação contida num conjunto de dado. Esta tarefa, que adquire importância quando o volume de dados for significativo, materializa-se na construção de tabelas, de gráficos ou no cálculo de medidas que representem convenientemente a informação contida nos dados. O objectivo da inferência estatística é mais ambicioso do que o da estatística descritiva e, naturalmente, os métodos e técnicas utilizados são mais sofisticados. Com base na análise de um conjunto limitado de dados (uma amostra), pretende-se caracterizar o todo a partir do qual tais dados foram obtidos (a população). Neste capítulo vamos rever alguns conceitos e técnicas utilizadas na estatística descritiva (nomeadamente o cálculo das medidas mais importantes).

1.2. Definições População: Conjunto de todos os elementos que contêm uma certa característica que estamos interessados em estudar. Sendo comum a todos os elementos, esta característica varia em quantidade ou qualidade. Uma população pode ter dimensão finita ou infinita. Amostra: Subconjunto de dados que pertencem à população. As amostras aleatórias são escolhidas através de processos (técnicas de amostragem) que nos garantem que o subconjunto obtido é representativo da população. Algumas das razões que nos levam a estudar a amostra em vez de estudarmos a população são as seguintes:

1


E S T A T Í S T I C A

D E S C R I T I V A

1. População infinita. 2. Custo em termos de tempo ou de dinheiro que um estudo a toda a população implicaria. 3. Recolha de informação através de testes destrutivos. 4. Impossibilidade de aceder a todos os elementos da população. Fases do Método de Análise Estatística No âmbito da Estatística, o método de abordagem dos problemas pode ser decomposto nas cinco fases que seguidamente se enunciam: 1. Estabelecimento do objectivo da análise a efectuar (isto é, das questões que se colocam e que se pretendem ver resolvidas) e definição da(s) população(ões) correspondente(s). 2. Concepção de um procedimento adequado para a selecção de uma ou mais amostras (escolha das técnicas de amostragem a utilizar). 3. Recolha de dados. 4. Análise dos dados (Estatística Descritiva). 5. Estabelecimento de inferências acerca da população (Inferência Estatística).

1.3. Classificação dos dados Os dados que constituem uma amostra podem ser expressos em quatro escalas distintas: nominal, ordinal, de intervalos e absoluta. Os dados dizem-se expressos numa escala nominal quando cada um deles for identificado pela atribuição de um nome que designa uma classe. As classes devem ser exaustivas (qualquer dado pertence a uma das classes), mutuamente exclusiva (cada dado pertence a uma só classe) e não ordenáveis (não existe nenhum critério relevante que permita estabelecer preferência por qualquer classe em relação às restantes). Exemplo 1.1: Classificação das pessoas pela cor do cabelo: preto, castanho, branco, loiro, etc. O que distingue a escala ordinal da escala nominal é a possibilidade de se estabelecer uma ordenação das classes nas quais os dados são classificados, segundo algum critério relevante. Exemplo 1.2: Classificação de notas em mau, suficiente, bom, ou muito bom.

2


E S T A T Í S T I C A

D E S C R I T I V A

Como se percebe a escala nominal e ordinal dizem respeito a dados qualitativos (representam qualidades). Relativamente aos dados quantitativos (representam quantidades) temos a escala de intervalo e a escala absoluta. No caso da escala de intervalo, os dados são diferenciados e ordenados por números expressos numa ordem cuja origem é arbitrária. Neste caso pode-se atribuir um significado à diferença entre esses números, mas não à razão entre eles. Exemplo 1.3: Temperaturas registadas em oC, às 8 horas de dias sucessivos. Notese que neste caso, se em três dias consecutivos a temperatura atingir 5oC, 10oC, e 20oC, não faz sentido dizer-se que no terceiro dia esteve duas vezes mais quente do que no segundo. De facto se a temperatura fosse expressa noutra escala, a razão entre as temperaturas registadas naqueles dias seria diferente. Contrariamente ao que sucede com a escala de intervalo, a escala absoluta tem origem fixa. Nesta escala, zero significa nada (note-se que, anteriormente, dizer que a temperatura era de 0oC não significa que não havia temperatura). Como consequência do facto de a origem ser fixa, a razão entre dados expressos numa escala absoluta passa a ter significado. Exemplo 1.4: Pesos de pessoas expressos em kg. Entre os dados quantitativos, sejam eles expressos em escalas de intervalos ou absolutas, é conveniente fazer desde já a distinção entre discretos e contínuos. Os dados são discretos quando são observações de uma variável aleatória discreta e contínuos quando são observações de uma variável aleatória contínua (o conceito de variável aleatória discreta e variável aleatória contínua pode ver-se mais adiante – capítulo 3).

1.4 Caracterização dos dados Não há uma estratégia única para iniciar o estudo descritivo, embora uma primeira recomendação seja começar por uma exploração visual dos dados. Muitas vezes há registos que não se encaixam no padrão geral, e por isso mesmo deve ser averiguado a veracidade dos mesmos. Muitas vezes tratam-se de erros de observação ou de registo, como também são provenientes de alterações do fenómeno em estudo. Para se ter uma ideia mais concreta acerca da forma dos nossos dados, recorremos a gráficos como histogramas ou diagrama de caule-e-folhas. Embora estas análises já se encontrem disponíveis em vários programas e calculadoras, para uma melhor interpretação das mesmas é conveniente conhecer as técnicas utilizadas. Para isso, relativamente a um estudo descritivo é importante:

3


E S T A T Í S T I C A

D E S C R I T I V A

Ordenação dos dados - onde se começa a ter uma ideia de algumas medidas de localização, como a mediana, quartos ou extremos;

Estatísticas amostrais – com algumas medidas temos um resumo dos nossos dados relativamente à localização, dispersão e forma;

Agrupamento dos dados e representação gráfica – revela-nos a forma possível para a nossa população em estudo e permite-nos escolher a classe de modelos que devemos explorar em análises mais sofisticadas.

A caracterização de dados que veremos diz respeito a uma amostra univariada , ou seja, quando cada um dos dados que a integram, mede numa escala qualquer, apenas um atributo. Dados qualitativos As formas mais comuns de descrever amostra univariadas com dados expressos nas escalas nominal ou ordinal envolvem o recurso a tabelas de frequências, a diagramas de barras ou a diagramas circulares. Em todos os casos o objectivo é o de representar a forma como os dados se distribuem por um conjunto de diferentes categorias. O número de dados contidos numa categoria qualquer i (i = 1,..., k ) designa-se por frequência absoluta da categoria i . Denotando por ni tal frequência e admitindo que as categorias especificadas contêm todos os dados, o número total destes vem dado por : k

n = ∑ ni

(1)

i =1

O número total de dados que pertencem a uma categoria qualquer i , quando expressos como uma proporção do número total de dados, designa-se por frequência relativa da categoria e é dada por, fi =

ni n

(2)

As frequências relativas são muitas vezes definidas em termos percentuais. Exemplo 1.5: Numa amostra constituída por 120 peças, constatou-se que 100 não tinham qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram irrecuperáveis. Na tabela seguinte representam-se as frequências (absolutas e relativas) dos dados que constituem esta amostra: Categoria de peças

Frequência absoluta

Frequência relativa

Sem defeito

100

83.3%

Recuperáveis

15

12.5%

Irrecuperáveis

5

4.2%

TOTAL

120

100%

4


E S T A T Í S T I C A

D E S C R I T I V A

Diagrama circular

4% 13%

Sem defeito Recuperáveis Irrecuperáveis

83%

A informação contida na tabela de frequências e nos diagramas, que inclui as diferentes categorias nas quais os dados da amostra foram classificados, designase por distribuição amostral. Dados quantitativos As técnicas utilizadas para descrever amostras univariadas constituídas por dados quantitativos podem ser classificadas em três grupos: 1. formas de representação tabular ou gráfica de dados, 2. estatísticas amostrais, e 3. representação gráfica de estatísticas. Na representação tabular existem ainda dois tipos de frequências: as frequências absoluta acumuladas e as frequências relativas acumuladas. Como os nomes indicam estas frequências representam para cada categoria i , a frequência absoluta (relativa) de dados que pertencem à classe ou a classes anteriores. Devido à necessidade de as categorias estarem ordenadas só podemos falar de frequências acumuladas quando os dados estão em escalas ordinais, de intervalo ou absoluta. Valor da variável (xi)

Frequência absoluta (ni)

Frequência relativa (fi)

x1

n1

f1 =

x2

n2

f2 =

M

M

M

xn

nn

fn =

TOTAL

n

1

Frequência absoluta acumulada (Ni)

Frequência relativa acumulada (Fi)

n1 n

N1 = n1

F1 = f1

n2 n

N 2 = n1 + n2

F2 = f1 + f 2

M

M

N n = n1 + ... + nn = n

Fn = f1 + ... + f n = 1

-

-

nn n

5


E S T A T Í S T I C A

D E S C R I T I V A

Exemplo 1.6: No âmbito de um estudo realizado com o objectivo de caracterizar o comportamento dos clientes de um hipermercado, analisou-se o número de ocupantes por veículo para 1000 veículos que entraram no parque automóvel do referido hipermercado, num Sábado. Os resultados encontram-se resumidos na tabela seguinte: Número de ocupantes por veículo

Frequência absoluta

Frequência relativa

Frequência absoluta acumulada

Frequência relativa acumulada

1

103

10.3%

103

10.3%

2

147

14.7%

250

25.0%

3

248

24.8%

498

49.8%

4

197

19.7%

695

69.5%

5

152

15.2%

847

84.7%

6

100

10.0%

947

94.7%

7

53

5.3%

1000

100%

TOTAL

1000

100%

ni

DIAGRAMA DE BARRAS

300 250 200 150 100 50 0 1

2

3 4 5 Nº ocupantes/veículo

6

7

As distribuições não agrupadas são a forma mais elementar de apresentação dos dados e consiste numa simples enumeração das observações, que podem ou não estar ordenadas. Quando o número de valores distintos observados é elevado, torna-se muitas vezes necessário condensar muito mais os quadros estatísticos, agrupando as observações em classes. Obtêm-se assim distribuições de frequências agrupadas em classes ou distribuições agrupadas. Este tipo de distribuições é particularmente útil quando dispomos de um grande número de dados relativos a uma variável contínua cujos valores observados são muito próximos uns dos outros. A frequência de cada classe é o número de observações que ela contém. No exemplo 6 os dados dizem respeito a uma variável discreta, quando provêm de uma variável contínua existem algumas diferenças que iremos observar através do exemplo 7.

6


E S T A T Í S T I C A

D E S C R I T I V A

Exemplo 1.7: Consideremos o conjunto de dados seguinte que representa o peso, expresso em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste saíram de uma linha de enchimento automático: 302.25, 299.20, 300.24, 297.22, 298.35, 303.76, 298.65, 299.38, 300.36, 299.16, 300.86, 299.83, 302.52, 300.12, 301.81,297.99, 299.23, 298.73, 303.07, 299.07, 297.83, ... , 300.80 A primeira característica que podemos observar neste conjunto de dados é que não existe praticamente repetição de valores. Isto leva a que não temos vantagem em utilizar os dados agrupados numa tabela de frequências, dado que iríamos ter uma tabela praticamente com tantas linhas quanto o número de dados. No entanto, podemos construir uma tabela de frequências se agruparmos os dados por classes: Classes

Frequência absoluta

Frequência relativa (%)

Frequência absoluta acumulada

Frequência relativa acumulada(%)

[297.00 , 298.00[

8

8%

8

8%

[298.00 , 299.00[

21

21%

29

29%

[299.00 , 300.00[

28

28%

57

57%

[300.00 , 301.00[

15

15%

72

72%

[301.00 , 302.00[

11

11%

83

83%

[302.00 , 303.00[

10

10%

93

93%

[303.00 , 304.00[

5

5%

98

98%

[304.00 , 305.00[

1

1%

99

99%

[305.00 , 306.00[

1

1%

100

100%

TOTAL

100

100% HISTOGRAMA

fi 0.3 0.25 0.2 0.15 0.1 0.05 0 [297.00 , 298.00[

[298.00 , 299.00[

[299.00 , 300.00[

[300.00 , 301.00[

[301.00 , 302.00[

[302.00 , 303.00[

[303.00 , 304.00[

[304.00 , 305.00[

[305.00 , 306.00[

peso ( gr amas)

Diagrama de caule-e-folhas (steam and leaf) Quando precisamos de organizar uma amostra, de forma a ter uma primeira ideia do comportamento da variável em estudo, e preparar a mesma para calcular algumas estatísticas amostrais de forma mais rápida, o diagrama de caule-e-folhas é extremamente útil. Este tipo de representação para além de organizar a amostra contribui para revelar a forma da distribuição subjacente, mas de uma forma sugestiva, que faz lembrar um histograma.

7


E S T A T Í S T I C A

D E S C R I T I V A

Exemplo 1.8: Suponhamos que as notas de uma turma de Matemática do 12º ano com 36 alunos foram as seguintes: 84 68 53

49 60 67

61 67 75

40 72 61

83 73 70

67 70 81

45 57 76

66 63 79

70 70 75

69 78 76

80 52 58

58 67 31

Na representação em diagrama de caule e folhas temos os seguintes passos: 1. Escolher o caule: 3 3 4 4 5 5 6 6 7 7 8

3 3 4 4 5 5 6 6 7 7 8

Por vezes, utiliza-se o caule horizontal, em vez de ser vertical. Este processo torna mais aparente a semelhança entre um histograma e uma representação em caule-e-folhas.

2. Escrever as folhas: 3 3 4 4 5 5 6 6 7 7 8

3 3 4 4 5 5 6 6 7 7 8

4

3 3 4 4 5 5 6 6 7 7 8

9

4

3. Caule e folhas completo: 3 3 4 4 5 5 6 6 7 7 8

1 0 9 2 8 1 7 0 8 4

5 3 7 0 6 2 6 3

8 3 9 3 9 0

1 8 7 7 7 0 0 0 5 6 6 1

8

9

1

4

3 3 4 4 5 5 6 6 7 7 8

9 0

1

4


E S T A T Í S T I C A

D E S C R I T I V A

4. Caule e folhas completo e ordenado: Profundidade

1 1 2 4 6 9 13 (7) 16 10 4

Caule Folhas

3 3 4 4 5 5 6 6 7 7 8

1 0 5 2 7 0 6 0 5 0

9 3 8 1 7 0 5 1

8 1 7 0 6 3

3 7 7 8 9 0 2 3 6 8 9 4

Que característica é que se pretende realçar, quando se representa um conjunto de dados sob a forma de um histograma ou de um caule-e-folhas? Dada uma amostra, o aspecto do histograma reflecte a forma da distribuição da População subjacente aos dados observados. Este é um dos aspectos da redução dos dados, em que se perde alguma informação contida nesses dados, mas em contrapartida obtemos a estrutura da População, que eles pretendem representar. Uma das vantagens deste tipo de representação é poder observar-se o tipo de distribuição subjacente aos dados, dos quais destacamos alguns exemplos:

Distribuições simétricas A distribuição das frequências faz-se de forma aproximadamente simétrica, relativamente a uma classe média.

Distribuições enviesadas A distribuição das frequências faz-se de forma acentuadamente assimétrica, apresentando valores substancialmente mais pequenos num dos lados, relativamente ao outro.

9


E S T A T Í S T I C A

D E S C R I T I V A

Distribuições com caudas longas A distribuição das frequências faz-se de tal forma que existe um grande número de classes nos extremos, cujas frequências são pequenas, relativamente às classes centrais:

Distribuições com vários picos ou modas A distribuição das frequências apresenta 2 ou mais "picos" a que chamamos modas, sugerindo que os dados são constituídos por vários grupos distintos:

1.5 Estatísticas amostrais O cálculo de estatísticas amostrais é uma forma mais sintética de descrever um conjunto de dados. As estatísticas amostrais são então medidas calculadas com base nos dados, a partir das quais é possível descrever globalmente o conjunto de valores que os dados tomam. 1.5.1. Medidas de localização 1.5.1.1. Média A mais utilizada das estatísticas de localização é a média aritmética amostral ou, como habitualmente se designa a média amostral.1 Para um conjunto de n dados xi (i = 1,2,..., n) a média amostral é definida pela expressão: n

∑x

i

x=

i =1

n

(dados não agrupados)

(3)

Consideremos os dados do exemplo 1.6, mas agora sem o conjunto de dados estar apresentado numa tabela de frequências:

Existem outras médias para além da aritmética, por exemplo, média geométrica, média harmónica, média quadrática, etc. 1

10


E S T A T Í S T I C A

D E S C R I T I V A

2, 1, 3, 3, 2, 3, 7, 5, 5, 2, 1, 3, 1, 1, 1, 4, 5, 6, 4, 5,...,3, 1, 2, 2, 3 (n = 1000) A média amostral é dada por 2 + 1 + ... + 2 + 3 = 3.66 ocupantes por veículo. 1000

x=

Para dados agrupados numa tabela de frequências a média amostral é dada por k

∑n x

i i

x=

i =1

(dados agrupados)

n

(4)

onde k representa o número de valores diferentes existentes no conjunto de dados. No exemplo 1.6 e considerando os dados agrupados na tabela de frequências teríamos a média amostral dada por x=

103 × 1 + 147 × 2 + 248 × 3 + 197 × 4 + 152 × 5 + 100 × 6 + 53 × 7 = 3.66 1000

ocupantes por veículo. No caso da variável ser contínua, dado que “perdemos” os valores concretos do conjunto (ficaram afectos a uma determinada classe) não podemos calcular a média amostral directamente dos valores dos dados. Deste modo a cada classe vai ser atribuído um representante ( xi ) e a média amostral calculada através desses representantes: k

∑n x

i i

x=

i =1

(dados agrupados em classes) (5) n onde k é o número de classes do agrupamento, ni é a frequência absoluta da classe i e xi é o ponto médio da classe i , o qual é considerado como elemento representativo da classe. No exemplo 1.7 a média amostral é dada por x=

8 × 297.5 + 21× 298.5 + ... + 1× 305.5 = 300.11 g 100

A média é sempre uma medida representativa dos dados? Suponhamos que temos a seguinte amostra:

11


E S T A T Í S T I C A

2.13

3.44

D E S C R I T I V A

2.78

4.35

1.51

2.8

2.47

3.73

172

A média desta amostra é x = 21.69 . Embora todos os dados, com a excepção de um deles (172), estejam no intervalo [1.51: 4.35] , o valor obtido para a média não pertence a este intervalo. O que acontece é que a média é muito sensível a valores muito grandes ou muito pequenos. No caso do exemplo, foi o valor 172 que inflacionou a média. Se pensarmos que, em vez deste valor podemos ter 1.72, temos razões para pensar que pode ter havido um erro. E se em vez de 172 o valor correcto fosse 1.72, qual o valor da média? Refazendo os cálculos com o valor correcto, obtém-se para a média amostral,

x = 2.77 , significativamente diferente do valor obtido anteriormente. 1.5.1.2. Mediana Uma outra medida de localização é a mediana amostral ( M e ) . Considere-se que os dados que integram a amostra são colocados por ordem crescente, formando um vector x1* , x2* ,..., xn* - amostra ordenada. A mediana amostral é definida nos seguintes termos:

(

)

n mpar Í

 x*n+1  2  M e =  x* + x* n n+1  2 2  2

(6)

n par

No exemplo 1.6, temos um conjunto de 1000 dados ( n = 1000 → n par ). A mediana é então dada por

Me =

* * x500 + x501 2

Temos de saber quais são os dados que ocupam as posições 500 e 501 quando estiverem ordenados por ordem crescente. Através da observação da tabela de * frequência (observando as frequência absolutas acumuladas) temos que x500 =4 e 4+4 * x501 = 4 . Logo a mediana é M e = = 4 ocupantes/viatura. 2

No caso contínuo, utilizando a definição só podemos calcular a classe mediana. Depois de identificada essa classe podemos calcular um valor aproximado para a mediana através da fórmula:

n − N i −1 0,5 − Fi −1, M e = li + 2 * ai = li + * ai ni fi

12

(7)


E S T A T Í S T I C A

D E S C R I T I V A

onde N i −1 é a frequência absoluta acumulada da classe antes da classe mediana, n a dimensão da amostra e li , ai e ni são, respectivamente, o limite inferior, amplitude e frequência absoluta da classe mediana. No exemplo 1.7, visto que n = 100 → par , podemos ver qual a classe que contém * * x50 e x51 ou Fi = 0.5 , a classe mediana é [299.00,300.00[ . Logo, através de (7) temos:

M e = 299.00 +

50 − 29 × 1.00 = 299.75 g 28

Dado um histograma é fácil obter a posição da mediana, pois esta está na posição em que passando uma linha vertical por esse ponto o histograma fica dividido em duas partes com áreas iguais.

Média vs Mediana Para ilustrar a diferença entre estas duas medidas vejamos o seguinte exemplo. Consideremos as notas obtidas por um aluno no 1º ano do curso: 10

13

11

15

18

16

14

15

14

9

∑x

i

= 14 mediana: n = 9 → M e = x*9+1 = x5* = 14 9 2 A média e mediana das notas desse aluno foram de 14 valores. Suponhamos que esse aluno fez melhoria da nota mais baixa, passando de 10 a 14 valores. Embora a mediana se mantenha, o valor da média sofreu um aumento, passou para 14.4 valores. Temos então que a média, ao contrário da mediana, é uma medida muito pouco resistente, isto é, ela é muito influenciada por valores muito grandes ou muito pequenos, chamados outliers2, mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana. Como medida de localização, a mediana é media: x =

2

i =1

Serão definidos mais adiante.

13


E S T A T Í S T I C A

D E S C R I T I V A

mais resistente do que a média, pois não é tão sensível aos dados. Então qual das duas devemos utilizar? a) Quando a distribuição é simétrica, a média e a mediana coincidem. b) A mediana não é tão sensível, como a média, às observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado a média reflecte o valor de todas as observações. Representando as distribuições dos dados na forma de uma mancha (válido para o digrama de barras ou histograma), de um modo geral temos:

Assim, não se pode dizer em termos absolutos qual destas medidas de localização é preferível, dependendo do contexto em que estão a ser utilizadas. 1.5.1.3. Moda A última medida de localização que será estudada é a moda ( M o ). Trata-se da medida que indica o valor ou a gama de valores nos quais a concentração dos dados amostrais é máxima. Quando os dados forem realizações de uma variável discreta, a moda é o valor dos dados que ocorre com maior frequência; e o intervalo de classe com maior frequência se a variável é contínua. Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal.

Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se pode calcular a média e por vezes a mediana (se não forem susceptíveis de ordenação).

14


E S T A T Í S T I C A

D E S C R I T I V A

No exemplo 1.6, a moda é o valor com maior frequência absoluta, ou seja, M o = 3 ocupantes/viatura . Quando os dados provêm de uma variável contínua existem algumas diferenças no cálculo da moda. Tal como na mediana começamos por calcular a classe modal. Depois de identificada a classe modal podemos calcular um valor aproximado para a moda através das fórmulas: ∆1 M o = li + × ai (8) ∆1 + ∆ 2 onde ai é a amplitude da classe modal, li é o limite inferior da classe modal, n é a dimensão da amostra, ∆1 é a diferença de frequências absolutas entre a classe modal e a classe anterior à modal e ∆ 2 é a diferença de frequências absolutas entre a classe modal e a classe posterior à classe modal. No exemplo 1.7, a classe com maior frequência absoluta é [299.00,300.00[ logo é a classe modal. Através de (8) temos: M o = 299.00 +

7 × 1.00 = 299.35 g 7 + 13

1.5.1.4. Extremos e Quartis Os extremos são os valores mínimo, x1* = min( xi ) , e máximo, xn* = max( xi ) , da amostra. Como vimos anteriormente, a mediana é a medida de localização que divide a amostra. Generalizando esta noção, o quantil de ordem p ( 0 < p < 1 ), Qp , é tal que 100p% dos elementos da amostra são menores ou iguais a Qp e os restantes 100 (1-p)% dos elementos da amostra são maiores ou iguais a Qp. A designação de quantil encontra-se associada à ideia de que os quantis dividem a distribuição de frequência em quantidades iguais, isto é, com igual número de observações. De uma maneira geral, o cálculo de um quantil, no caso discreto,

 x*[np]+1 se np não é inteiro  Qp =  1 (9) * * se np inteiro  xnp + x np+1 2 e no caso contínuo, determina-se de forma idêntica à mediana. Os quantis podem ser: • Quartis → dividem a distribuição de frequência em 4 partes iguais; • Decis → dividem a distribuição de frequência em 10 partes iguais;

(

)

15


E S T A T Í S T I C A

D E S C R I T I V A

Percentis → dividem a distribuição de frequência em 100 partes iguais. A importância dos quartis deve-se ao facto de algumas representações gráficas utilizarem estas medidas:

Q1 - 1º quartil: divide as observações tal que 25% são menores ou iguais e 75% são maiores ou iguais.

Q2 - 2º quartil ou mediana: divide as observações ao meio, tal que 50% são são menores ou iguais e 50% são maiores ou iguais.

Q3 - 3º quartil: divide as observações tal que 75% são menores ou iguais e 25% são maiores ou iguais.

No exemplo 1.8, n = 36 * x1* = 31 e x36 = 84

58 + 60 = 59 2

n 36 = =9 4 4

Q1 =

n 36 = = 18 2 2

Q2 = Me =

67 + 68 = 67.5 2

3n 108 75 + 75 = = 27 → Q3 = = 75 4 4 2

1.5.2. Medidas de dispersão 1.5.2.1. Intervalo de variação Uma medida de dispersão que se utiliza por vezes, é o intervalo de variação ou amplitude amostral, R , definida como sendo a diferença entre a maior e a menor das observações: R = max( xi ) − min( xi ) = xn* − x1*

(10)

onde representamos por x1* e xn* , respectivamente o menor e o maior valor da amostra ( x1 , x 2 ,..., x n ) , de acordo com a notação introduzida anteriormente, para a amostra ordenada. No exemplo 1.8,

R = max( xi ) − min( xi ) = 84 − 31 = 53

16


E S T A T Í S T I C A

D E S C R I T I V A

1.5.2.2. Variância A variância amostral é uma medida adequada para descrever a dispersão de uma amostra (ou de uma população, se se dispuser de todos os dados que a compõem). A dispersão de uma amostra pode ser medida pela variância amostral ( s 2 ) dada pelas seguintes expressões: n

∑ ( xi − X )

2

2

i =1

s =

(dados não agrupados)

n

k k 2 n ∑ ni xi  −  ∑ ni xi  ∑ ni ( xi − X )   i=!  s 2 = i=1 =  i=1 n n2 k

(11)

2

2

(dados agrupados)

(12)

No entanto, se pretendemos inferir acerca da variabilidade de uma população de grandes dimensões a partir de uma amostra, então, por razões que neste momento não iremos estudar, é preferível recorrer à variância amostral corrigida. Nesta estatística, representada por s '2 , a soma dos erros quadráticos é dividida por n − 1 e não por n . n

s '2 =

2 ∑ ( xi − X )

i =1

n −1 k

s '2 =

s '2 =

2 ∑ ni ( xi − X ) i =1

n −1

(dados não agrupados) k k 2 n ∑ ni xi  −  ∑ ni xi    i =!  =  i=1 n(n − 1)

( 13)

2

(dados agrupados)

n 2 s n −1

(14)

(15)

No exemplo 1.8, 2

 n  n x − ( x − x ) ∑ ∑  ∑ xi  i i =1 2  i =1  ≅ 143.73 i =1 s = = n n2 n

n

2 i

2

2

 n  n x − ( x − x ) ∑  ∑ xi  ∑ i i =1  i =1  ≅ 147.84 2 i =1 s' = = n −1 n × (n − 1) n

n

2 i

2

1.5.2.3. Desvio padrão Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da

17


E S T A T Í S T I C A

D E S C R I T I V A

variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:

s = s2

(16)

O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:

o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados;

se s=0, então não existe variabilidade, isto é, os dados são todos iguais.

No exemplo 1.8, s = s 2 ≅ 11.99 e s ' = s '2 ≅ 12.16 . 1.5.2.4. Amplitude inter quartil A medida anterior tem a grande desvantagem de ser muito sensível à existência, na amostra, de uma observação muito grande ou muito pequena. Assim, definese uma outra medida, a amplitude inter-quartil, que é, em certa medida, uma solução de compromisso, pois não é afectada, de um modo geral, pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta medida é definida como sendo a diferença entre o 3º e 1º quartis,

Q = Q3 − Q1

( 17)

Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da amostra estão contidos num intervalo com aquela amplitude. Esta medida é não negativa e será tanto maior quanto maior for a variabilidade nos dados. Nota: Ao contrário do que acontece com o desvio padrão, uma amplitude interquartil nula, não significa necessariamente, que os dados não apresentem variabilidade. No exemplo 1.8,

Q = Q3 − Q1 = 75 − 59 = 16 Amplitude inter-quartil vs desvio padrão Do mesmo modo que a questão foi posta relativamente às duas medidas de localização mais utilizadas (média e mediana), também aqui se pode por o problema de comparar as duas últimas medidas de dispersão. A amplitude interquartil é mais robusta, relativamente à presença de outliers, do que o desvio padrão, que é mais sensível aos dados.

18


E S T A T Í S T I C A

D E S C R I T I V A

1.5.2.5. Boxplot (caixa de bigodes) O boxplot ou caixa de bigodes é um tipo de representação gráfica onde se realçam algumas características da amostra, nomeadamente a existência de outliers (valores que se distinguem dos restantes, dando a ideia de não pertencerem ao mesmo conjunto de dados). O conjunto dos valores da amostra compreendidos entre o 1º e o 3º quartil é representado por um rectângulo (caixa) com a mediana indicada por uma barra. Considera-se seguidamente duas linhas que unem os lados dos rectângulos com as barreiras interiores (eventualmente os extremos).

A barreira inferior interior é o menor valor da amostra (eventualmente o mínimo), que é maior do que Q1 − 1,5 × Q . A barreira superior interior é o maior valor da amostra (eventualmente o máximo), que é maior do que Q1 + 1,5 × Q .

Q − 1,5 × Q; Q1 + 1,5 × Q ] Quando existem valores fora deste intervalo, [ 1 , diz-se que existem outliers ou valores discordantes. Para averiguar o grau dos mesmos [Q − 3 × Q; Q1 + 3 × Q ] . Caso essas devem ser calculadas as barreiras exteriores: 1 observações se encontrem neste último intervalo designam-se por outliers moderados, caso contrário dizem-se outliers severos.

Nota: Quando não existem outliers e nas extremidades da linha se representam os extremos da amostra, mínimo ( x1* ) e máximo ( xn* ), esta representação coincide com o diagrama de extremos e quartis. Este tipo de representação realça

19


E S T A T Í S T I C A

D E S C R I T I V A

características importantes sobre os dados, como sejam o centro da amostra (mediana), variabilidade, simetria. Repare-se que da forma como o diagrama se constrói (distância entre a linha indicadora da mediana e os lados do rectângulo; comprimento das linhas que saem dos lados dos rectângulos; comprimento da caixa), se pode retirar imediatamente a seguinte informação:

Aqui podemos ver alguns exemplos, correspondentes a tipos diferentes de distribuição de dados.

Voltado ao exemplo 1.8, na representação boxplot temos os seguintes passos: 1. Cálculo dos quartis: n = 36 n 36 58 + 60 = = 9 → Q1 = = 59 4 4 2 67 + 68 n 36 = = 18 → Q2 = Me = = 67, 5 2 2 2 3n 108 75 + 75 = = 27 → Q3 = = 75 4 4 2

2. Cálculo das barreiras interiores:

Q = Q3 − Q1 = 75 − 59 = 16 bi = Q1 − 1,5 × Q = 58 − 1,5 ×16 = 34 bs = Q3 + 1,5 × Q = 75 + 1,5 ×16 = 99 3. Será que existem outliers?

20


E S T A T Í S T I C A

D E S C R I T I V A

As barreiras interiores são [34;99] , logo, como existe um valor fora deste intervalo estamos na presença de um outlier. As barreiras exteriores ficam:

Bi = Q1 − 3 × Q = 58 − 3 ×16 = 11 Bs = Q3 + 3 × Q = 75 + 3 ×16 = 123 Como esta observação se encontra dentro das barreiras exteriores, isto é x ∈ [11: 23] , é um outlier moderado. 4. Representação gráfica do boxplot:

1.5.2.5. Coeficiente de variação O coeficiente de variação expressa o desvio padrão como percentagem da média, é portanto uma medida relativa da dispersão da variável,

CV =

s

×100

(18)

x

Nota: É preciso ter em conta que se a média é perto de zero, o coeficiente de variação terá um valor elevado mesmo se os desvios relativamente à média são pequenos. Por isso, deixa de ser útil quando a média é próxima de zero. No exemplo 1.8, CV =

11.98 × 100 ≅ 18.2% 65.86

21


E S T A T Í S T I C A

D E S C R I T I V A

1.6. Dados bivariados

Muitas vezes o estudo descritivo não se resume ao estudo de apenas uma variável, por vezes é necessário a observação de duas (ou mais) varáveis para se ter uma visão global do problema em estudo. Nesse caso deixamos de ter uma ..., n passamos a ter dados bivariados ( xi , yi ) , i = 1,..., n amostra ( x1 , ..., x n ) , ei 1, (observações de uma variável aleatória bidimensional, que será definida no capítulo 3). Por exemplo, a pressão atmosférica está relacionada com a altitude e/ou com a temperatura; a altura de uma criança está relacionada com a alutura do pai e/ou mãe. Uma das coisas que se pretende estudar é a relação existente entre as varáveis deste par. Para ter uma ideia de como as duas varáveis se relacionam é comum representar graficamente esta relação através de um gráfico de dispersão. Esta representação consiste na marcação num sistema de eixos cartesianos as observações, ficando com uma nuvem de pontos que correspondem aos pares ordenados ( xi , yi ) . Exemplo 9: Consideremos os dados da temperatura do fuel gás (graus Fahrenheit) e a taxa de calor (Kilowatt-hora) para uma turbina de combustão para ser usada na refrigeração. x

100

225

250

275

400

425

450

y

99.1 98.8 98.5 98.5 98.5 98.2

98

97.8 97.8 97.8 97.6 97.5 97.3

97

96.8 96.7

125

150

175

200

300

325

350

375

Gráfico de dispersão 99.5

Calor

99 98.5 98 97.5 97 96.5 0

200

400

600

Temperatura

Este diagrama mostra a relação entra as variáveis em estudo, donde se pode extrair que talvez exista uma correlação linear entre elas. Esta relação pode ser traduzida através de uma recta.

22

500


E S T A T Í S T I C A

D E S C R I T I V A

1.6.1.Regressão linear simples Quando a relação existente entre duas variáveis é linear, pode ser traduzida através de uma recta. Sendo assim, temos o seguinte modelo determinístico: Y =α +βX

(19)

em que α é a ordenada na origem e β o declive da recta.

No modelo de regressão linear simples pretende-se explicar o efeito que uma variável x , variável independente ou explicativa, sobre uma variável y , variável dependente ou explicada. Correlação Linear Negativa (forte)

Correlação Linear Positiva (forte)

0

0

0

0

x

x

Correlação Linear Fraca

0 0 x

Esta visualização permite, através da simples observação do diagrama de dispersão, averiguar a possível existência ou não de correlação linear entre duas variáveis.

23


E S T A T Í S T I C A

D E S C R I T I V A

1.6.2. Correlação. Coeficiente de determinação O coeficiente de correlação linear, rxy , mede o grau de associação linear entre dados bivariados, e calcula-se da seguinte forma:

s xy

rxy =

(20)

sxx s yy

onde n

sxy = ∑ xi − x i =1 n

(

sxx = ∑ xi − x i =1 n

e

(

)(

)

2 i

(21)

i =1

n

2

) =∑x

− nx

2

(22)

i =1

s yy = ∑ yi − y i =1

n

yi − y = ∑ xi yi − nx y ,

(

)

2

n

= ∑ yi2 − n y

2

(23)

i =1

Deste modo podemos reescrever o coeficiente de correlação linear como rxy =

γ xy

(24)

sx s y

onde γ xy é a covariância de X e Y e −1 ≤ r ≤ 1 .

n

A variação total da variável dependente (VT) é dada por

∑( i =1

)

2

yi − y , que pode

ser decomposta da seguinte forma: 2

2

2

 y^ − y  +  y − y^  y − y = ∑ ∑  i  ∑ i i  14243  i =1 i =1  i =1  14243 14243 n

(

)

VT

n

VE

n

VR

24

(25)


E S T A T Í S T I C A

D E S C R I T I V A

em que VE é a variação explicada pela regressão e VR é a variação residual. Ficamos então com VT = VE + VR ⇔

VE VR + =1 VT VT

(26)

VE ,é VT o coeficiente de determinação, R 2 , que é a proporção da variabilidade total que é explicada pelo modelo de regressão,

em que a razão entre a variação explicada pela regressão e a variação total,

n

R2 =

)

2

∑( y − y)

2

∑(

yi − y

i =1 n

i

sxy2 s = xx = s yy

 n   ∑ xi yi − nx y   i =1  n

∑ xi2 − nx ∑y

i =1

− ny

i =1

2

n

β  ∑ xi yi − nx y 

2

i =1 n

2 i

2

=

 i =1

n

∑y

2 i

− ny

2

(27)

i =1

O coeficiente de determinação varia entre zero e um, 0 ≤ R 2 ≤ 1 . Quando este coeficiente toma o valor 1 significa que a recta de regressão explica totalmente a variabilidade da variável dependente. O valor nulo de R 2 corresponde à situação em que a recta de regressão não explica nada da variabilidade da variável dependente. O coeficiente de correlação pode ser calculado através do coeficiente de determinação,

rxy = ± R 2

(28)

em que o sinal depende do declive da recta de regressão, sendo +(-) se esse declive é positivo (negativo). 1.6.3. Método dos mínimos quadrados Quando se verifica, quer através do gráfico de dispersão quer do coeficiente de correlação linear, uma correlação forte entre duas variáveis, podemos descrever a relação entre essas variáveis através de uma recta de regressão (a recta que melhor se ajusta aos dados). Essa recta serve de modelo matemático para expressar a relação linear entre duas variáveis. Considera-se, em geral, X a variável independente ou explicativa e Y a variável dependente ou explicada. Um dos métodos mais utilizados para ajustar uma recta a um conjunto de dados é o Método dos Mínimos Quadrados (MMQ), que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios (os

25


E S T A T Í S T I C A

D E S C R I T I V A

chamados erros ou resíduos) entre os verdadeiros valores, y , e os valores ^

estimados a partir da recta de regressão que se pretende ajustar, y .

O modelo de regressão linear é a recta de regressão ^

y i = α + β xi + ε i (29) obtida de tal modo que a soma dos quadrados dos desvios ou resíduos ^

( ε i = yi − y ) seja mínima, 2

^ 2 min ∑ ε = min ∑  yi − yi  = min ∑ ( yi − (α + β xi ) )  i =1 i =1  i =1 n

n

n

2 i

(30)

Como tal, para estimar os parâmetros do modelo, é necessário que as primeiras derivadas, em ordem a α e a β , sejam nulas e as segundas sejam maiores ou iguais a zero,

 ∂ n 2  ∂α ∑ ( yi − α − β xi ) = 0  i =1  n  ∂ ( yi − α − β xi ) 2 = 0  ∂β ∑ i =1

 

(31)

As estimativas dos mínimos quadrados para os parâmetros α e a β são ^

^

α = y−β x

(32)

e n

^

β=

∑ x y − nx y i

i

i =1 n

∑x

2 i

= − nx

2

sxy

(33)

s xx

i =1

26


E S T A T Í S T I C A

D E S C R I T I V A

Voltando ao exemplo 1.9, uma vez que se observa no gráfico de dispersão uma relação linear entre as variáveis, vamos confirmar esta relação através do coeficiente de correlação, y

xy y2 x2 99,1 10000 9820,81 9910 98,8 15625 9761,44 12350 98,5 22500 9702,25 14775 98,5 30625 9702,25 17237,5 98,5 40000 9702,25 19700 98,2 50625 9643,24 22095 98 62500 9604 24500 97,8 75625 9564,84 26895 97,8 90000 9564,84 29340 97,8 105625 9564,84 31785 97,6 122500 9525,76 34160 97,5 140625 9506,25 36562,5 97,3 160000 9467,29 38920 97 180625 9409 41225 96,8 202500 9370,24 43560 96,7 250000 9350,89 48350 1565,9 1559375 153260,19 451365

x 100 125 150 175 200 225 250 275 300 325 350 375 400 425 450 500 4625

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Σ

n

rxy =

∑ x y − nx y i

sxy sxx s yy

i

i =1

=

n

∑x

2 i

− nx

i =1

2

= −0.99

n

∑y

2 i

−ny

2

i =1

O valor da correlação é r = −0.99 e o coeficiente de determinação R 2 = 0.977 indiciam uma forte correlação linear entre a temperatura de fuel gás e a taxa de calor. Vamos agora estimar, através do MMQ, os parâmetros α e β e traçar a recta de regressão:

^

β=

sxy s

2 x

n

n

n

i =1

i =1

i =1

n ∑ xi yi − ∑ xi ∑ yi =

n  n  n∑ xi2 −  ∑ xi  i =1  i =1  ^

α = y−βx =

2

=

16 × 451365-4625 × 1565,9 = −0, 0057 16 ×1559375-(4625)2

1656, 9 4625 − (−0, 0057) × = 99,529 16 16

Sendo assim, a recta de regressão calculada pelos métodos dos mínimos quadrados é dada por, ^

^

^

y = α + β x = 99,529 − 0, 0057 x

27


E S T A T Í S T I C A

D E S C R I T I V A

cujo gráfico de dispersão com a respectiva recta de regressão é o seguinte:

Gráfico de dispersão 99.5

y = -0.0057x + 99.529 R2 = 0.977

Calor

99 98.5 98 97.5 97 96.5 0

200

400

600

Temperatura

Através da recta de regressão estimada é possível prever taxas de calor com base na temperatura do fuel gás. Por exemplo, para uma temperatura do fuel gás de 405 graus Fahrenheit prevê-se uma taxa de calor de ^

y = −0.0057 × 405 + 99.529 = 97.2205 Kilowatt-hora.

28


ÍNDICE 2.TEORIA DAS PROBABILIDADES........................................................................................30 2.1. DEFINIÇÕES .............................................................................................................................30 2.1.1. Experiência aleatória ...................................................................................................................................30 2.1.2. Espaço de resultados ....................................................................................................................................31 2.1.3. Acontecimento...............................................................................................................................................32 2..2. ÁLGEBRA DOS ACONTECIMENTOS..........................................................................................34 2.2.1. União de acontecimentos.............................................................................................................................34 2.2.2. Intersecção de acontecimentos....................................................................................................................34 2.2.3. Acontecimento contrário .............................................................................................................................35 2.2.4. Acontecimento diferença..............................................................................................................................35 2.2.5. Propriedades da União e da Intersecção de acontecimentos..................................................................36 2.2.6. Acontecimentos incompatíveis ou mutuamente exclusivos ...................................................................36 2.3. DEFINIÇÕES DE PROBABILIDADE .............................................................................................37 2.3.1. Definição clássica de probabilidade ou definição a priori .....................................................................37 2.3.2. Definição frequencista de probabilidade ou definição a posterori........................................................39 2.4. AXIOMÁTICA DAS PROBABILIDADES (KOLMOGOROV) ...........................................................40 2.5. CONDICIONADA E INDEPENDÊNCIA .......................................................................................41 2.5.1. Acontecimentos condicionados ..................................................................................................................41 2.5.2. Acontecimentos independentes ...................................................................................................................41 2.5.3. Teorema das probabilidades totais............................................................................................................44 2.5.4. Teorema de Bayes..........................................................................................................................................44 2.6. REVISÕES SOBRE TÉCNICAS DE CONTAGEM .............................................................................45


T E O R I A

D A S

P R O B A B I L I D A D E S

Capítulo

2 2.Teoria das Probabilidades

2.1. Definições 2.1.1. Experiência aleatória Entende-se por experiência aleatória qualquer acção que possa ser repetida nas mesmas condições, ou em condições semelhantes, que tenha mais do que um resultado possível e que não se possa prever qual o resultado. Exemplos 2.1: 2.1.1

Lançamento de uma moeda.

2.1.2

Lançamento de duas moedas.

2.1.3

Lançamento de uma moeda até sair face.

2.1.4

Lançamento de um dado.

2.1.5

Escolha aleatória de uma pessoa num grupo de 5 pessoas.

2.1.6

Fabricar peças até que duas peças perfeitas sejam produzidas e contar o número total de peças produzidas.

2.1.7

Fabricar uma lâmpada. Colocá-la num suporte, acendê-la e registar o tempo de funcionamento até fundir.

2.1.8

Um termógrafo regista a temperatura continuamente durante um período de 24 horas numa determinada localidade. As temperaturas, mínima e máxima são registadas.

30


T E O R I A

D A S

P R O B A B I L I D A D E S

2.1.2. Espaço de resultados O espaço de resultados de uma experiência aleatória é uma representação de todos os resultados possíveis dessa experiência aleatória. Em termos de notação vamos representar o espaço de resultados pela letra S . Exemplos 2.2: 2.1.1

Lançamento de uma moeda:

S = {cara, coroa}={F, C} 2.1.2

Lançamento de duas moedas:

S ={(F, F), (F, C), (C, F), (C, C)} 2.1.3

Lançamento de uma moeda até sair face:

S ={F, CF, CCF, CCCF, …} 2.1.4

Lançamento de um dado: S = {1, 2, 3, 4, 5, 6}

2.1.5

Escolha aleatória de uma pessoa num grupo de 5 pessoas:

S = {João, Sara, Pedro, Luísa, Paulo} 2.1.6

Fabricar peças até que duas peças perfeitas sejam produzidas e contar o número total de peças produzidas:

S = {2, 3, 4, 5, ...} 2.1.7

Fabricar um lâmpada. Colocá-la num suporte, acendê-la e registar o tempo de funcionamento até fundir:

S = {t : t ≥ 0} 2.1.8

Um termógrafo regista a temperatura continuamente durante um período de 24 horas numa determinada localidade. As temperaturas, mínima e máxima são registadas:

S = {(x, y) : x ≤ y} Se se admitir que a temperatura mínima nessa localidade não poderá descer abaixo de um certo valor (m) e a temperatura máxima não poderá subir acima de um certo valor (M):

S = {(x, y) : m ≤ x ≤ y ≤ M}

31


T E O R I A

D A S

P R O B A B I L I D A D E S

O número de elementos de um espaço de resultados (cardinal “#” de S) pode ser finito − Exemplos 1.2.1, 1.2.2, 1.2.4 e 1.2.5, ou infinito, sendo que neste caso pode ainda ser infinito numerável (pode estabelecer-se uma correspondência biunívoca com o conjunto dos números naturais, i. e, pode enumerar-se) − Exemplos 1.2.3 e 1.2.6, ou infinito não numerável − Exemplos 1.2.7 e 1.2.8. Quando o número de elementos de um espaço de resultados é finito ou infinito numerável o espaço de resultados diz-se discreto. Se o número de elementos de um espaço de resultados é infinito não numerável o espaço de resultados diz-se contínuo. 2.1.3. Acontecimento Entende-se por acontecimento, como algo que define uma condição ou propriedade particular, que pode ou não, ser satisfeita pelos resultados possíveis da experiência aleatória. A definição do acontecimento está sempre associada a uma experiência aleatória em particular. Em termos de notação os acontecimentos são representados, geralmente, por letras maiúsculas. Ao acontecimento que é constituído por apenas um resultado chama-se acontecimento elementar. Exemplos 2.3: 2.3.1

Experiência: lançamento de uma moeda Exemplos de acontecimentos:

A = “sair cara” B = “sair coroa” C = “não sair nem cara nem coroa” 2.3.2

Experiência: lançamento de um dado Exemplos de acontecimentos:

A = “sair o número 2” B = “sair o número 1 ou o número 5” C = “sair um número par” D = “sair um número superior a 7” 2.3.3

Experiência: escolha aleatória de uma pessoa num grupo de 5. Exemplos de acontecimentos:

32


T E O R I A

D A S

P R O B A B I L I D A D E S

A = “escolher uma pessoa loira” B = “escolher o João” C = “escolher um pessoa com mais de 1.80 m de altura” 2.3.4

Experiência: lançamento de uma moeda até sair face. Exemplos de acontecimentos:

A = “serem necessários três lançamentos” B = “serem necessários no máximo três lançamentos” C = “serem necessários pelo menos três lançamentos”

Fala-se na ocorrência de um acontecimento (ou diz-se que um acontecimento ocorreu) se o resultado da experiência pertence a esse acontecimento. Fala-se na não ocorrência de um acontecimento (ou diz-se que o acontecimento não ocorreu) se o resultado da experiência não pertence a esse acontecimento. Exemplo 2.4: Se ao realizarmos a experiência do Exemplo 1.3.2 o resultado for a “saída da face 2” pode dizer-se que ocorreu o acontecimento A, não ocorreu o acontecimento B, ocorreu acontecimento C e não ocorreu o acontecimento D.

É muito importante notar que a mesma definição de acontecimento pode representar acontecimentos diferentes se estivermos a falar de experiências aleatórias diferentes. Exemplo 2.5: O acontecimento A =”sair número par” tem um significado diferente se estivermos a falar da experiência lançamento de um dado ou se estivermos a falar da experiência que consiste em escolher de forma aleatória uma carta de um baralho completo.

33


T E O R I A

D A S

P R O B A B I L I D A D E S

2..2. Álgebra dos acontecimentos 2.2.1. União de acontecimentos É o acontecimento que ocorre se e só se pelo menos um dos acontecimentos ocorrer:

União de A com B ⇔ A ∪ B = {x : x ∈ A ∨ x ∈ B}

A∪B

A∪B

2.2.2. Intersecção de acontecimentos É o acontecimento que ocorre se e só se todos os acontecimentos ocorrerem:

Intersecçã o de A com B ⇔ A ∩ B = {x : x ∈ A ∧ x ∈ B}

A∩B = ∅

A∩B

34


T E O R I A

D A S

P R O B A B I L I D A D E S

2.2.3. Acontecimento contrário Dado o acontecimento A define-se como acontecimento contrário de A , o acontecimento A que ocorre se e só se A não ocorrer:

Contrário de A ⇔ A = {x : x ∈ S ∧ x ∉ A}

A 2.2.4. Acontecimento diferença Dados dois acontecimentos A e B , define-se o acontecimento diferença A − B , como sendo o acontecimento que ocorrerá se A ocorrer e B não ocorrer.

A − B = A ∩ B ⇔ {x : x ∈ A ∧ x ∉ B}

A−B = A∩B

35


T E O R I A

D A S

P R O B A B I L I D A D E S

2.2.5. Propriedades da União e da Intersecção de acontecimentos

Propriedade

União

Intersecção

Comutativa

A∪B=B∪ A

A∩B = B∩ A

Associativa

A ∪( B ∪C ) = ( A ∪ B) ∪C

A ∩( B ∩C ) = ( A ∩ B) ∩C

Distributiva

A ∪( B ∩C ) =( A ∪ B) ∩( A ∪C )

A ∩( B ∪C ) =( A ∩ B) ∪( A ∩C )

Idempotência

A∪A=A

A∩A = A

Complemento

A∪A =S

A∩A =∅

Leis de De Morgan

________

________

A∪B = A ∩B

A∩B = A ∪B

Existência de elemento neutro

A∪∅ = A

A∩S = A

Existência de elemento absorvente

A∪S = S

A∩∅=∅

2.2.6. Acontecimentos incompatíveis ou mutuamente exclusivos Dois acontecimentos A e B são incompatíveis (ou mutuamente exclusivos) se A ∩ B = ∅ , ou seja, se A ocorre então B não ocorre; se B ocorre então A não ocorre − o símbolo ∅ , representa o acontecimento impossível, isto é, o acontecimento que não é satisfeito por nenhum dos resultados possíveis da experiência. Aos acontecimentos que são satisfeitos por qualquer resultado do espaço de resultados, damos o nome de acontecimento certo e representamos por S .

36


T E O R I A

D A S

P R O B A B I L I D A D E S

2.3. Definições de probabilidade 2.3.1. Definição clássica de probabilidade ou definição a priori A probabilidade de um certo acontecimento ocorrer, quando o número de elementos do espaço de resultados é finito, é igual ao quociente entre o número de resultados que satisfazem o acontecimento e o número de resultados possíveis da experiência. P( A) =

nº de resultados favoráveis a A nº de resultados possíveis

(1)

Exemplo 2.6: Considere a experiência aleatória “lançamento de uma dado” e os acontecimentos referidos no Exemplo 1.3.1:

S = {1, 2, 3, 4 , 5, 6} ⇒ # S = 6 A ="sair o número 2"= {2} ⇒ # A = 1 P( A ) =

#A 1 = #S 6

B ="sair o número 1 ou o número 5"= {1, 5} ⇒ # B = 2 P( B ) =

#B 2 = #S 6

C =" sair um número par"= {2, 4, 6} ⇒ # C = 3 P( C ) =

#C 3 = #S 6

D ="sair um número superior a 7"= ∅ ⇒ # D = 0 P( D ) =

#D 0 = =0 #S 6

37


T E O R I A

D A S

P R O B A B I L I D A D E S

Se o número de elementos do espaço de resultados for infinito não numerável, mas puder ser associada uma medida geométrica m(S) – comprimento, área ou volume, então a probabilidade de ocorrência do acontecimento A será: P( A) =

comprimento de A área de A volume de A ou P( A) = ou P( A) = comprimento de S área de S volume de S

Exemplo 2.7: Considere a seguinte experiência aleatória: dois pontos x e y são seleccionados ao acaso na recta real ℜ tais que –3 ≤ x ≤ 0 e 0 ≤ y ≤ 2. Calcule a probabilidade de que a distância entre x e y seja inferior a 2. Resolução:

O espaço de resultados (S) são todos os pontos (x, y) do rectângulo O acontecimento (A) são todos os pontos (x, y) tais que d = y – x < 2, ou seja, todos os pontos pertencentes ao triângulo y=0

limitado pelas rectas y – x = 2, x = 0 e

2× 2 área de A 2 P( A) = = 2 = área de S 3× 2 6

38


T E O R I A

D A S

P R O B A B I L I D A D E S

2.3.2. Definição frequencista de probabilidade ou definição a posterori A definição clássica de probabilidade tem a vantagem de nos proporcionar uma análise teórica consistente sobre as probabilidades (ver secções seguintes). No entanto, a sua aplicação directa é um pouco limitativa visto exigir o conhecimento prévio de todos os resultados possíveis da experiência aleatória bem como que estes sejam equiprováveis. Numa situação em que tal não é possível utilizamos o conceito de probabilidade frequencista. A probabilidade frequencista é obtida através do seguinte processo: 1º - Repete-se a experiência n vezes (suficientemente grande). 2º - Dos n resultados obtidos contam-se acontecimento A ( n A resultados)

quantos

satisfazem

o

A probabilidade de A ocorrer numa futura repetição da experiência é dada por:

P( A ) =

nA = fA n

(2)

Exemplo 2.8: Considere a experiência aleatória “lançamento de uma dado” e os acontecimentos referidos no Exemplo 2.3.1, e que temos motivos para crer que o dado é viciado, i. e, que as a saída de cada uma das faces não é equiprovável. Neste caso, para podermos calcular a probabilidade de cada um dos acontecimentos teremos que realizar a experiência um número suficiente grande de vezes. Admita-se que se lançou o dado 600 vezes e que se obteve os seguintes resultados: F ace N úm ero de vezes

1 110

2 80

3 90

4 105

5 115

Como n=600 teremos

A ="sair o número 2"= {2} ⇒ n A = 80 P( A ) =

n A 80 = ≅ 0,13 n 600

B ="sair o número 1 ou o número 5"= {1, 5} ⇒ nB = 110 + 115 = 225

P( B ) =

nB 225 = ≅ 0,38 n 600

C =" sair um número par"= {2, 4, 6} ⇒ nC = 80 + 105 + 100 = 285

39

6 100


T E O R I A

D A S

P( C ) =

P R O B A B I L I D A D E S

nC 285 = ≅ 0,48 n 600

D ="sair um número superior a 7" ⇒ n D = 0 P( D ) =

nD 0 = =0 n 600

2.4. Axiomática das probabilidades (Kolmogorov) Os axiomas são um conjunto de propriedades que se aceitam como verdadeiras (não necessitam de demonstração). Axioma 1: P ( A ) ≥ 0 , qualquer que seja o acontecimento A . Axioma 2: P( S ) = 1 Axioma 3: Se A , B ⊂ S e A ∩ B = ∅ então P ( A ∪ B ) = P ( A ) + P ( B ) Uma consequência importante da axiomática é que:

0 ≤ P( A) ≤ 1 Os teoremas que a seguir se apresentam já são propriedades que são susceptíveis de demonstração: Teorema 1: P ( ∅ ) = 0 Teorema 2: P ( A ) = 1 − P ( A ) Teorema 3: P( A − B ) = P( A ∩ B ) = P( A ) − P ( A ∩ B ) Teorema 4: P ( A ∪ B ) = P ( A ) + P( B ) − P( A ∩ B ) Pode também demonstrar-se, com base no Teorema 4, que para três acontecimentos A, B e C: P( A ∪ B ∪ C ) = = P( A) + P( B) + P(C ) − P( A ∩ B) − P( A ∩ C ) − P( B ∩ C ) + P( A ∩ B ∩ C )

Teorema 5: A ⊂ B ⇒ P ( A) ≤ P ( B )

40


T E O R I A

D A S

P R O B A B I L I D A D E S

De notar que um acontecimento impossível tem probabilidade zero de ocorrer (Teorema 1), mas, no entanto, existem acontecimentos que têm probabilidade zero de ocorrer e não são acontecimentos impossíveis, são os chamados acontecimento raros. De igual forma, os acontecimentos certos têm probabilidade 1 (Axioma 2), mas existem acontecimentos a que atribui probabilidade 1 sem, no entanto, serem acontecimentos certos, são os acontecimentos quase certos.

2.5. Condicionada e independência 2.5.1. Acontecimentos condicionados Dados dois acontecimentos A e B tais que P ( B ) > 0 , a probabilidade de A ocorrer sabendo que o acontecimento B se realizou é calculada por :

P( A B ) =

P( A ∩ B ) P( B )

(3)

Da mesma forma no caso de P( A ) > 0 , a probabilidade de B ocorrer sabendo que o acontecimento A se realizou é calculada por :

P( B A ) =

P( A ∩ B ) P( A )

(4)

2.5.2. Acontecimentos independentes Dois acontecimentos são independentes se:

P ( A B ) = P( A ) ou P( B A ) = P ( B )

(5)

ou ainda, através de (35) e de (36) podemos concluir que se A e B são dois acontecimentos independentes então:

P( A ∩ B ) = P( A ) × P( B )

(6)

Se A e B são acontecimentos independentes então podemos afirmar que também são acontecimentos independentes: 1.

AeB

2.

A eB

3.

A eB

41


T E O R I A

D A S

P R O B A B I L I D A D E S

Exemplo 2.9: Considere-se a experiência aleatória que consiste em retirar, ao acaso, uma peça de um conjunto de 10.000 peças das quais uma é defeituosa. Definam-se os acontecimentos:

A =”a peça tirada é defeituosa” B =”a peça tirada é não defeituosa” Então

P( A ) = P( B ) =

1 ≅ 0 A é um acontecime nto raro 10000

9999 ≅ 1 B é um acontecime nto quase certo 10000

Exemplo 2.10: O Fernando desloca-se para o trabalho utilizando como meio de transporte o comboio. Ao longo dos anos o Fernando reparou que quando apanha o comboio usual, o das 7:55, 10% das vezes chega atrasado. A linha a que o Fernando pertence (a linha da Azambuja) é uma linha com alguns problemas e os comboios avariam com alguma frequência. Estima-se que a probabilidade de um certo comboio avariar é de 1% . Temos então dois acontecimentos: A = ”O Fernando chegar atrasado quando apanha o comboio das 7:55”

B = ”O comboio do Fernando avariar” Com as seguintes probabilidades:

P ( A ) = 0.1 e P ( B ) = 0.01 . Suponhamos que o Fernando se encontra dentro do comboio das 7:55 e este avariou a meio do trajecto. Que consequências para a probabilidade do acontecimento A ? Resposta: Nesta situação temos uma informação adicional que é o facto de sabermos que o acontecimento B ocorreu. Portanto temos um acontecimento novo que é:

42


T E O R I A

D A S

P R O B A B I L I D A D E S

A B = ”O Fernando chegar atrasado quando apanha o comboio das 7:55 sabendo que este avariou” Como é lógico a probabilidade de A B é com certeza superior à probabilidade de A. Podemos então concluir que o acontecimento B influencia o acontecimento A pelo que estes não são acontecimentos independentes.

Exemplo 2.11: Neste exemplo vamos verificar a lógica da fórmula (35) que permite calcular probabilidades de acontecimentos condicionados: Consideremos a experiência aleatória que consiste no lançamento de um dado equilibrado. Definamos os seguintes acontecimentos: A = ”sair número maior que 3”={4, 5, 6}

B = ”sair número par”={2, 4, 6}

P( B ) =

P( A ) =

1 2

1 2

Suponhamos que o dado é lançado e alguém vê o resultado, mas não o revela. Apenas nos informa que o resultado é um número par. Qual é agora a probabilidade de ocorrer o acontecimento A ? Resposta: Neste momento temos a informação adicional de que o acontecimento B ocorreu. Queremos calcular a probabilidade de A ocorrer sabendo que B ocorreu, ou seja P ( A B ) . Como sabemos que B ocorreu os resultados possíveis passaram a ser {2,4 ,6} . Como queremos saber a probabilidade de A os resultados favoráveis são {4,6} . Logo, P ( A B ) =

2 . 3

Se utilizarmos a fórmula (4) obtemos, necessariamente o mesmo resultado:

P( A ∩ B ) 2 6 2 P( A B ) = = = . 3 P( B ) 3 6 Desenvolvendo a equação (35) e a equação (36) obtemos a seguinte fórmula que nos permite calcular a probabilidade de intersecção de dois acontecimentos:

P( A ∩ B ) = P( A B ) × P( B ) = P( B A ) × P( A ) 43

(7)


T E O R I A

D A S

P R O B A B I L I D A D E S

2.5.3. Teorema das probabilidades totais Consideremos o seguinte conjunto de acontecimentos, A1 , A 2 ,..., An num espaço de resultados. Este conjunto define uma partição do espaço de resultados se: •

A1 ∪ A 2 ∪ ... ∪ An = S

Ai ∩ A j = ∅ , ∀i , j com i ≠ j

P ( Ai ) > 0 , ∀i A1

....

S

A2

An

Seja B um outro acontecimento definido no mesmo espaço de resultados. Se soubermos a probabilidade de B ocorrer dado que ocorreu cada um dos A i , podemos calcular a probabilidade total de B ocorrer: n

n

i =1

i =1

P ( B ) = ∑ P ( Ai ∩ B ) = ∑ P ( Ai ) × P ( B A i )

(8)

2.5.4. Teorema de Bayes Se A1 , A 2 ,..., An , é uma partição de S com P ( Ai ) > 0, i = 1,2,..., n , então:

P( A j B ) =

P( A j ) × P ( B A j ) n

∑ P( Ai ) × P( B Ai )

i =1

44

com j = 1, 2, ...., n

(9)


T E O R I A

D A S

P R O B A B I L I D A D E S

2.6. Revisões sobre técnicas de contagem Admitindo a equiprobabilidade dos acontecimentos elementares o cálculo da probabilidade de um acontecimento A, resume-se à contagem do número de casos possíveis associados à experiência aleatória e do número de casos favoráveis à ocorrência desse acontecimento A. Existem duas regras básicas de contagem: Regra da adição:

se um acontecimento A puder ocorrer de m maneiras distintas e um acontecimento B puder ocorrer de n maneiras distintas, e os acontecimentos A e B não puderem ocorrer simultaneamente, então o acontecimento A ou B pode ocorrer de m+n maneiras.

Regra da multiplicação:

se um acontecimento A puder ocorrer de m maneiras distintas e um acontecimento B puder ocorrer de n maneiras distintas, então o acontecimento A e B pode ocorrer de m × n maneiras.

Relativamente à amostragem, importa definir dois conceitos básicos: ordenação e reposição/repetição: Uma amostra diz-se ordenada se se considera relevante a ordem pela qual os elementos estão dispostos. Caso contrário, diz-se não ordenada. Uma amostra é retirada sem reposição quando cada elemento do conjunto apenas puder fazer parte da amostra somente uma vez. Se não há limite ao número de vezes que cada elemento pode entrar na amostra, a amostra diz-se com reposição. Em síntese: REPOSIÇÃO/REP. ORDEM

Sem reposição/repetição Simples

Ordenados ARRANJOS Não ordenados COMBINAÇÕES

Arn =

n! ( n − r )!

n! n C rn =  r  =   r !( n − r )!

Com reposição/repetição Completos

α nr = n r Γrn =  

Relembre-se que n ! (lê-se n factorial) é n ! = n × ( n − 1 ) × ... × 2 × 1 primeiros n inteiros) e que 0! = 1 Exemplo 2.12:

45

n + r − 1  r  produto dos


T E O R I A

D A S

P R O B A B I L I D A D E S

Consideremos o conjunto {a,b,c,d}. Quantas amostras de dimensão 1 (com 1 elemento) se podem fazer ? Resposta: Pretende-se saber quantas amostras de dimensão 1 (r=1) podem existir a partir de um conjunto que tem 4 elementos (n=4) e que são necessariamente 4: {{a}, {b}, {c}, {d}} Recorrendo à análise combinatória teremos com n=4 e r=1:

4 A14 = α 14 =  1  = Γ14 = 4   Podendo concluir-se que no caso da amostra ter apenas um elemento é irrelevante falar em ordenação e reposição.

Exemplo 2.13: Consideremos o mesmo conjunto {a, b, c, d}. Quantas amostras de dimensão 2 se podem fazer ? Resposta: Neste caso como a amostra tem dimensão 2 (r=2) já é relevante saber se é ordenada ou não e se existe ou não reposição. Temos, assim, quatro situações: 1. Ordenadas e sem reposição – arranjos simples:

A24 =

4! = 4 × 3 = 12 2!

{(a,b),(b,a),(a,c),(c,a),(a,d),(d,a),(b,c),(c,b),(b,d),(d,b),(c,d),(d,c)} 2. Ordenadas e sem reposição – arranjos completos:

α 42 = 4 2 = 4 × 4 = 16 {(a,b),(b,a),(a,c),(c,a),(a,d),(d,a),(b,c),(c,b),(b,d),(d,b),(c,d),(d,c), (a,a),(b,b),(c,c),(d,d)} 3. Não ordenadas e com reposição – combinações simples:

 4  = 4! = 4 × 3 = 6  2  2! 2! 2 {(a,b),(a,c),(a,d),(b,c),(b,d),(c,d)}

4. Não ordenadas e com sem reposição – combinações completas:

46


T E O R I A

D A S

Γ24 =  

P R O B A B I L I D A D E S

4 + 2 − 1  5   =  2  = 10 2   

{(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),(a,a),(b,b),(c,c),(d,d)}

Algumas vezes, estamos apenas interessados em saber de quantas maneiras podemos ordenar um conjunto que tem n elementos diferentes. Tal situação é o que se costuma designar por permutações de n elementos:

Pn = n! Note-se que as permutações se podem considerar como um caso particular dos arranjos simples quando r = n :

Ann =

n! n! = = n! ( n − n )! 0!

Exemplo 2.14: De quantas maneiras podemos ordenar os elementos do conjunto {a, b, c} ? Resposta: Como n = 3, e os elementos são todos diferentes, termos P3 = 3! = 6 {(a b c),(a c b),(b a c),(b c a),(c a b),(c b a)}

Se os n elementos não forem todos diferentes, o número de ordenações é obviamente inferior a n! – são as chamadas permutações com repetição. Assim, se nos n elementos temos n1 iguais entre si, n2 iguais entre si e diferentes dos n1, ..., nr iguais entre si e diferentes dos n1, n2, ..., nr-1 e n1+n2+...+nr =n, o número de ordenações possíveis é:

n! n Pn ; n 1 , n 2 , ...., n r =  n , n , ..., n  = r  n1 ! × n 2 ! × ... × n r !  1 2

47


T E O R I A

D A S

P R O B A B I L I D A D E S

Exemplo 2.15: De quantas maneiras podemos ordenar os elementos do conjunto {a, a, b} ? Resposta: Como n = 3 e os elementos não são todos diferentes pois temos n1 = 2 (existem 2 3! “a”) e n2 = 1 (existe apenas 1 “b”) teremos P3;2,1 = =3 2!× 1! {(a a b),(a b a),(b a a)}

48


ÍNDICE

3. VARIÁVEIS ALEATÓRIAS ...................................................................................................49 3.1. VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS ..........................................................................49 3.2. VARIÁVEIS DISCRETAS – FUNÇÃO DE PROBABILIDADE E FUNÇÃO DISTRIBUIÇÃO DE PROBABILIDADE. .............................................................................................................................50 3.2.1. Função de probabilidade..............................................................................................................................50 3.2.2. Função distribuição de probabilidade .......................................................................................................51 3.3. VARIÁVEIS CONTÍNUAS – FUNÇÃO DE DENSIDADE DE PROBABILIDADE E FUNÇÃO DE DISTRIBUIÇÃO DE PROBABILIDADE .................................................................................................53 3.3.1. Função densidade de probabilidade ...........................................................................................................53 3.3.2. Função de distribuição de probabilidade ..................................................................................................53 3.4. PARÂMETROS DAS VARIÁVEIS ALEATÓRIAS ............................................................................55 3.4.1. Valor médio ou valor esperado ...................................................................................................................55 3.4.2. Variância e desvio padrão ...........................................................................................................................55 3.4.3. Mediana..........................................................................................................................................................56 3.4.4. Relação entre a média e a mediana ...................................................................................................................57 3.5. VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS ............................................................................58 3.5.1. Variáveis aleatórias bidimensionais discretas ........................................................................................58 3.5.1.1. Função de probabilidade conjunta.................................................................................................................58 3.5.1.2. Função de distribuição conjunta ...................................................................................................................58 3.5.1.3. Funções de probabilidade marginal...............................................................................................................59 3.5.2. Variáveis aleatórias bidimensionais contínuas.......................................................................................59 3.5.2.1. Função de densidade de probabilidade conjunta ...........................................................................................59 3.5.2.2. Função de distribuição conjunta ...................................................................................................................59 3.5.2.3. Funções de densidade de probabilidade marginal..........................................................................................60 3.6. RELAÇÕES ENTRE AS VARIÁVEIS X E Y....................................................................................61 3.6.1. Funções de (densidade de) probabilidade condicionais.....................................................................................61 3.6.2. Covariância ......................................................................................................................................................61 3.6.3. Coeficiente de correlação linear..................................................................................................................62 3.6.4. Independência das variáveis aleatórias X e Y ..........................................................................................62

i


V A R I Á V E I S

A L E A T Ó R I A S

Capítulo

3 3. Variáveis Aleatórias

3.1. Variáveis Aleatórias Unidimensionais As variáveis aleatórias (v.a.) aparecem com a necessidade de representar os resultados de uma experiência aleatória através de números reais. Em muitas situações o conjunto de valores que uma variável toma confunde-se com o próprio espaço de resultados. Uma variável aleatória pode definir-se como uma função definida num espaço de resultados S e que tem como contradomínio números reais. As variáveis aleatórias classificam-se em discretas ou contínuas consoante o tipo de conjunto de valores que elas podem tomar. Variável discreta: quando a variável assume valores num conjunto finito ou infinito numerável. Variável contínua: quando a variável assume valores de um conjunto infinito não numerável. As variáveis representam-se por letras maiúsculas (tipicamente, X, Y, Z, W, ...) e os valores que estas podem tomar pelas correspondentes minúsculas correspondentes (x, y, z, w, ...). Exemplo 3.1: Experiência aleatória: Medição do peso de uma pessoa escolhida ao acaso. Espaço de resultados: Conjunto de todos os pesos atribuíveis a uma pessoa. Variável aleatória: O peso da pessoa, que pode tomar qualquer valor do espaço de resultados.

Existem no entanto outras situações em que os valores da variável aleatória não são os resultados do espaço de resultados mas sim uma transformação destes.

49


V A R I Á V E I S

A L E A T Ó R I A S

Exemplos 3.2: Experiência aleatória: Lançamento de dois dados. Espaço de resultados: Conjunto dos valores obtidos pelos dois dados, num total de trinta e seis resultados possíveis (#S=36)

S = {( x , y ) : x , y = 1,2,3,4 ,5,6}. Variável aleatória: Seja X a variável aleatória que representa a soma dos números dos pontos dos dois dados. Esta v.a. pode tomar qualquer valor inteiro do número 2 ao número 12:

X (S ) = {2,3,4 ,...,12}. Mas no mesmo espaço de resultados poder-se-ia definir outra variável aleatória Variável aleatória: Seja Y a variável aleatória que representa a diferença, em valor absoluto, dos números dos pontos dos dois dados. Esta v.a. pode tomar qualquer valor inteiro do número 0 ao número 5:

Y (S ) = {0,1, 2, 3, 4 , 5 }

Exemplos 3.3: A variável resultado do lançamento de um dado é discreta (assume os valores 1, 2, 3, 4, 5 ou 6). A variável que representa o tempo que um atleta leva a completar a prova dos 100 m é contínua se admitirmos que é medida com precisão absoluta.

3.2. Variáveis discretas – Função de probabilidade e função distribuição de probabilidade. 3.2.1. Função de probabilidade Seja X uma variável aleatória discreta. Define-se como função de probabilidade (f.p.) a função que associa a cada valor que a variável pode tomar, a probabilidade dessa v.a. tomar esse valor.

f ( x ) = P( X = x )

(1)

50


V A R I Á V E I S

A L E A T Ó R I A S

Propriedades 1. f ( x ) ≥ 0 , ∀x 2.

∑ f( x ) =1

Exemplo 3.4: Seja X a variável aleatória que representa o resultado do lançamento de um dado equilibrado. A função de probabilidade é definida por:

1 1 1 1 1 1 f ( 1) = , f ( 2 ) = , f ( 3 ) = , f ( 4 ) = , f ( 5 ) = , f ( 6 ) = 6 6 6 6 6 6 e f ( x ) = 0 para outros valores de x. Em termos de notação e de modo a simplificar, podemos representar a função de probabilidade por meio de uma tabela assumindo que os valores que não aparecem na tabela, têm probabilidade zero de ocorrer. No nosso exemplo teremos então: x

1

2

3

4

5

6

f (x)

1 6

1 6

1 6

1 6

1 6

1 6

Quando uma v.a. para todos os valores de x onde for f ( x ) ≠ 0 o valor de f ( x ) for constante, diz-se que a v.a X tem uma distribuição uniforme (discreta) 3.2.2. Função distribuição de probabilidade Define-se como função de distribuição de probabilidade de uma certa variável aleatória X , a função que associa a cada valor a probabilidade da variável aleatória tomar valor menores ou iguais a esse valor.

F ( x ) = P( X ≤ x )

(2)

Da definição resulta que a função de distribuição pode ser calculada em qualquer ponto x através da função de probabilidade:

F ( x ) = P( X ≤ x ) = ∑ f ( t ) t ≤x

51

(3)


V A R I Á V E I S

A L E A T Ó R I A S

Propriedades 1. 0 ≤ F ( x ) ≤ 1 , ∀x 2. lim F ( x ) = 1 e lim F ( x ) = 0 x →+∞

x →−∞

3. x 2 > x 1 ⇒ F ( x 2 ) ≥ F ( x 1 ) , ∀x 1 , x 2 4. P( x 1 < X ≤ x 2 ) = F ( x 2 ) − F ( x 1 ) Exemplo 3.5: Para o Exemplo 3.4 a função de distribuição de probabilidade é definida por:

0 1   62  6 3 F( x ) =  6 4 6 5 6 1 

se x < 1 se 1 ≤ x < 2 se 2 ≤ x < 3 se 3 ≤ x < 4 se 4 ≤ x < 5 se 5 ≤ x < 6 se x ≥ 6

Exemplo 3.6: No caso da variável aleatória que definimos no Exemplo 3.4 a função de distribuição de probabilidade toma os seguintes valores para os seguintes exemplos:

F ( 1 ) = P( X ≤ 1 ) = f ( 1 ) =

1 6

F ( 4 ) = P( X ≤ 4 ) = f ( 1 ) + f ( 2 ) + f ( 3 ) + f ( 4 ) =

4 6

F ( 4.3 ) = P ( X ≤ 4.3 ) = f ( 1 ) + f ( 2 ) + f ( 3 ) + f ( 4 ) =

4 6

F ( 0.8 ) = P( X ≤ 0.8 ) = 0 F ( 7.4 ) = P( X ≤ 7.4 ) = f ( 1 ) + f ( 2 ) + f ( 3 ) + f ( 4 ) + f ( 5 ) + f ( 6 ) = 1

52


V A R I Á V E I S

A L E A T Ó R I A S

3.3. Variáveis contínuas – Função de densidade de probabilidade e função de distribuição de probabilidade Sendo X uma variável aleatória contínua, toma valores num conjunto infinito não numerável. A aplicação do conceito de função de probabilidade neste tipo de conjuntos leva a que P ( X = a ) = 0, ∀a , ou seja, a probabilidade pontual é sempre nula, o que não implica que o acontecimento seja impossível, quer apenas dizer que à partida é nula a probabilidade de acontecer a saída exacta de a (os valores que X pode tomar são tantos que estamos na presença de um acontecimento raro). Note-se no entanto, que não são nulas as probabilidades definidas sobre intervalos. Nesta situação, deixa de fazer sentido a função de probabilidade. No seu lugar aparece a função de densidade de probabilidade. 3.3.1. Função densidade de probabilidade A função de densidade de probabilidade (f.d.p.) é uma função que nos indica como a probabilidade de uma variável aleatória continua se distribuí ao longo do intervalo de valores que essa variável pode tomar. Valores de X para os quais a função de densidade toma valores mais elevados representam “zonas” que têm maior probabilidade de ocorrer quando observamos valores dessa variável •

Diz-se que f ( x ) é a função de densidade de probabilidade da variável aleatória contínua X se a área limitada por f (x) , o eixo dos xx e as rectas x = a e x = b for igual à P ( a ≤ x ≤ b ) b

P( a ≤ X ≤ b ) = ∫ f ( x ) dx

(4)

a

Propriedades 1. f ( x ) ≥ 0 , ∀x +∞

2.

∫ f (x ) dx = 1

−∞

3.3.2. Função de distribuição de probabilidade No caso das variáveis aleatórias contínuas continua a fazer sentido a função de distribuição de probabilidade tal como foi definida para o caso discreto.

F ( x ) = P( X ≤ x )

(5)

53


V A R I Á V E I S

A L E A T Ó R I A S

Da definição resulta que a função de distribuição pode ser calculada em qualquer ponto x através da função de densidade de probabilidade: x

F ( x ) = P( X ≤ x ) = ∫ f ( t ) dt −∞

Propriedades 1. 0 ≤ F ( x ) ≤ 1 , ∀x 2. lim F ( x ) = 1 e lim F ( x ) = 0 x →+∞

x →−∞

3. x 2 > x 1 ⇒ F ( x 2 ) ≥ F ( x 1 ) , ∀x 1 , x 2 4. P( x 1 < X ≤ x 2 ) = F ( x 2 ) − F ( x 1 ) 5. F ( x ) é uma função continua em ℜ .

54

(6)


V A R I Á V E I S

A L E A T Ó R I A S

3.4. Parâmetros das variáveis aleatórias Nesta secção vamos estudar os parâmetros que caracterizam uma variável aleatória em termos médios (medidas de localização ou tendência central) – média e mediana, e em termos de dispersão – variância e desvio padrão. 3.4.1. Valor médio ou valor esperado Chama-se valor médio ou valor esperado ao valor que se obtém somando (ou integrando) todos os valores que uma variável aleatória pode tomar, ponderados pela respectiva probabilidade pontual (ou densidade de probabilidade no ponto) e representa-se por µ = E( X ) :

µ = E( X ) = ∑ x ⋅ f ( x ) (caso discreto)

(7)

+∞

µ = E( X ) = ∫ x ⋅ f ( x ) dx (caso contínuo)

(8)

−∞

Propriedades Sejam X e Y duas variáveis aleatórias e k , a e b constantes. 1. E( k ) = k 2. E( kX ) = kE( X ) 3. E( aX ± bY ) = aE( X ) ± bE( Y ) 3.4.2. Variância e desvio padrão A variância de uma variável aleatória X , representa-se por Var ( X ) = σ 2x e define-se por:

[

Var ( X ) = E ( X − E( X ) )2

]

Var ( X ) = ∑ (x − E( X ) )2 ⋅ f ( x ) (caso discreto)

(9) (10)

+∞

Var ( X ) = ∫ (x − E( X ) )2 ⋅ f ( x ) dx (caso contínuo) −∞

55

(11)


V A R I Á V E I S

A L E A T Ó R I A S

Pela definição podemos observar que a variância é o valor médio dos desvios quadráticos da variável relativamente ao seu valor médio. Quanto mais frequentes forem os valores afastados do valor médio maior a variância. Designa-se por desvio padrão e representa-se por σ a raiz quadrada positiva da variância:

σ x = σ = Var ( X )

(12)

Propriedades Sejam X e Y duas variáveis aleatórias e k , a e b constantes. 1. Var ( k ) = 0 2. Var ( kX ) = k 2Var ( X ) 3. Var ( aX ± bY ) = a 2Var ( X ) + b 2Var ( Y ) ± 2abCov ( X , Y ) Caso as variáveis sejam independentes, como Cov ( X , Y ) = 0 1, temos que:

Var ( aX ± bY ) = a 2Var ( X ) + b 2Var ( Y )

Existe uma fórmula prática para o cálculo da variância:

Var ( X ) = E (X 2 ) − [E( X )]2

(13)

E(X 2 ) = ∑ x 2 ⋅ f ( x ) (caso discreto)

(14)

onde,

+∞

E(X 2 ) = ∫ x 2 ⋅ f ( x ) dx (caso contínuo)

(15)

−∞

3.4.3. Mediana Define-se mediana como o valor da v.a. que divide a distribuição em duas partes.

1

Iremos definir variáveis independentes e covariância mais adiante.

56


V A R I Á V E I S

A L E A T Ó R I A S

Caso discreto No caso de uma v.a. discreta podemos distinguir duas situações: 1. Se não existir nenhum valor x i para o qual a F (x i ) = 0,5 a mediana será o menor valor x i para o qual F (x i ) > 0,5 . 2. Se existir um valor x i para o qual a F (x i ) = 0,5 a mediana será

Me =

x i + x i +1 2

Caso contínuo No caso de uma v.a contínua a mediana é univocamente determinada, porque existe um só valor para o qual

P ( X ≤ M e ( X )) = 0.5 ⇔ F ( M e ( X )) = 0.5 3.4.4. Relação entre a média e a mediana Quando média e a mediana são iguais a distribuição diz-se simétrica:

µ = Me Quando a distribuição é não simétrica temos uma de duas situações: 1. µ < M e e a distribuição diz-se assimétrica negativa. 2. M e < µ e a distribuição diz-se assimétrica positiva.

57


V A R I Á V E I S

A L E A T Ó R I A S

3.5. Variáveis Aleatórias Bidimensionais Uma variável aleatória bidimensional não é mais do que uma par de variáveis aleatórias ( X , Y ) . No caso de X e Y serem duas variáveis aleatórias discretas o par diz-se uma variável aleatória bidimensional discreta. Na situação em que ambas são contínuas temos uma variável aleatória bidimensional contínua. 3.5.1. Variáveis aleatórias bidimensionais discretas 3.5.1.1. Função de probabilidade conjunta Chama-se função de probabilidade conjunta da variável aleatória ( X , Y ) à função f (x , y ) que associa a cada elemento (x , y ) a probabilidade da variável aleatória X tomar o valor x ao mesmo tempo da variável Y tomar o valor y .

f (x , y ) = P ( X = x , Y = y )

(16)

Propriedades 1. f (x , y ) ≥ 0 , ∀(x , y ) ∈ ℜ 2 2.

∑ ∑ f (x , y ) = 1 x

y

3.5.1.2. Função de distribuição conjunta Chama-se função de distribuição de probabilidade conjunta da variável aleatória (X , Y ) à função F (x , y ) que associa a cada elemento (x , y ) a probabilidade da variável aleatória X tomar valores menores ou iguais a x ao mesmo tempo da variável Y tomar valores menores ou iguais a y .

F (x , y ) = P (X ≤ x , Y ≤ y )

(17)

F( x , y ) = ∑ ∑ f ( s , t )

(18)

s ≤x t ≤ y

Propriedades 1. 0 ≤ F ( x , y ) ≤ 1 , ∀( x , y ) ∈ ℜ 2. lim F ( x , y ) = 1 x → +∞

y → +∞

3. lim F ( x , y ) = 0 , ∀y x → −∞

58


V A R I Á V E I S

A L E A T Ó R I A S

4. lim F ( x , y ) = 0 , ∀x y → −∞

5. x 1 < x 2 ∧ y1 < y 2 ⇒ F ( x 1 , y1 ) ≤ F ( x 2 , y 2 ) 3.5.1.3. Funções de probabilidade marginal A função de probabilidade marginal de uma variável é a função de probabilidade individual dessa variável e obtém-se da função de probabilidade conjunta, não impondo nenhuma restrição ao valor da outra variável. Função de probabilidade marginal de X :

f X ( x ) = P ( X = x ,−∞ < Y < +∞ ) = ∑ P ( X = x , Y = y ) = ∑ f ( x , y ) y

(19)

y

Função de probabilidade marginal de Y :

f Y ( y ) = P ( −∞ < X < +∞, Y = y ) = ∑ P ( X = x , Y = y ) = ∑ f ( x , y ) x

(20)

x

3.5.2. Variáveis aleatórias bidimensionais contínuas 3.5.2.1. Função de densidade de probabilidade conjunta Tal como acontece nas variáveis unidimensionais contínuas, nas variáveis bidimensionais contínuas não faz sentido falar em função de probabilidade visto que P ( X = x , Y = y ) = 0 ∀( x , y ) , aparecendo no seu lugar a função de densidade de probabilidade conjunta. Esta função indica-nos como a probabilidade se distribui pelos valores que o par aleatório ( X , Y ) pode tomar. Propriedades 1. f (x , y ) ≥ 0 , ∀(x , y ) ∈ ℜ 2 +∞ +∞

2.

∫ ∫ f ( x , y ) dx dy = 1 −∞ −∞

3.5.2.2. Função de distribuição conjunta Chama-se função de distribuição de probabilidade conjunta da variável aleatória ( X , Y ) à função F ( x , y ) que associa a cada elemento ( x , y ) a probabilidade

59


V A R I Á V E I S

A L E A T Ó R I A S

da variável aleatória X tomar valores menores ou iguais a x ao mesmo tempo da variável Y tomar valores menores ou iguais a y .

F ( x , y ) = P( X ≤ x , Y ≤ y ) x

(21)

y

F ( x , y ) = ∫ ∫ f ( s , t ) dt ds

(22)

−∞ −∞

Propriedades 1. 0 ≤ F ( x , y ) ≤ 1 , ∀( x , y ) ∈ ℜ 2 2. lim F ( x , y ) = 1 x →+∞

y →+∞

3. lim F ( x , y ) = 0 , ∀y x →−∞

4. lim F ( x , y ) = 0 , ∀x y →−∞

5. x 1 < x 2 ∧ y 1 < y 2 ⇒ F ( x 1 , y 1 ) < F ( x 2 , y 2 ) 3.5.2.3. Funções de densidade de probabilidade marginal A função de densidade de probabilidade marginal de uma variável é a função de densidade de probabilidade individual dessa variável e obtém-se da função de densidade de probabilidade conjunta, não impondo nenhuma restrição ao valor da outra variável. Função de densidade de probabilidade marginal de X : +∞

f X ( x ) = ∫ f ( x , y ) dy

(23)

−∞

Função de densidade de probabilidade marginal de Y : +∞

f Y ( y ) = ∫ f ( x , y ) dx

(24)

−∞

60


V A R I Á V E I S

A L E A T Ó R I A S

3.6. Relações entre as variáveis X e Y 3.6.1. Funções de (densidade de) probabilidade condicionais Sabendo o valor que uma das variáveis vai tomar (ou tomou) podemos calcular a função de probabilidade (no caso discreto) ou a função de densidade de probabilidade (no caso contínuo) da outra variável, tendo em conta a informação conhecida relativamente ao valor da primeira variável. Caso discreto e caso contínuo:

fX Y = y( x ) =

f ( x, y ) fY ( y )

(25)

fY X =x ( y ) =

f ( x, y ) fX( x )

(26)

3.6.2. Covariância No estudo das relações existentes entre duas variáveis aleatórias X e Y podemos analisar a covariância das duas variáveis. Define-se então covariância entre X e Y , Cov ( X , Y ) , como:

Cov( X , Y ) = σ XY = E[( X − E( X ) ) ⋅ (( Y − E( Y ) )]

(27)

donde , no caso discreto:

Cov( X , Y ) = ∑ ∑ ( x − E( X ))( y − E( Y )) f ( x , y ) x

(28)

y

e, no caso contínuo: +∞ +∞

Cov( X , Y ) = ∫ ∫ ( x − E( X ))( y − E( Y )) f ( x , y ) dy dx

(29)

−∞ −∞

Verifica-se que − ∞ < Cov ( X , Y ) < +∞ . Fórmula prática para o cálculo da covariância:

Cov( X , Y ) = E( X ⋅ Y ) − E( X ) ⋅ E( Y )

(30)

A covariância de duas variáveis fornece-nos uma medida da relação linear existente entre as duas variáveis. Quando a covariância assume um valor muito alto positivo temos a indicação de que existe uma relação linear positiva forte entre as duas variáveis. Quando a covariância toma um valor muito baixo negativo temos a indicação de que existe uma relação linear negativa forte. Na

61


V A R I Á V E I S

A L E A T Ó R I A S

situação em que a covariância toma valores perto de zero a relação linear é muito fraca e inexistente no caso em que a covariância é zero. 3.6.3. Coeficiente de correlação linear A covariância está expressa nas unidades das variáveis X e Y simultaneamente o que introduz dificuldades quando se pretende fazer comparações. Para ultrapassar esta situação podemos calcular o coeficiente de correlação linear ( ρ ) que tem sempre o seu valor entre –1 e 1. Dado um par de variáveis aleatórias ( X , Y ) , define-se coeficiente de correlação linear como:

ρ XY =

Cov ( X , Y ) σ XY = Var ( X ) ⋅ Var ( Y ) σ X ⋅ σY

(31)

Quando:

ρ XY = −1 , existe correlação linear negativa perfeita entre X e Y . ρ XY = 0 , não há correlação linear entre X e Y . ρ XY = 1 , existe correlação linear positiva perfeita entre X e Y . 3.6.4. Independência das variáveis aleatórias X e Y Dada uma variável aleatória bidimensional ( X , Y ) , diz-se que as variáveis unidimensionais que a integram, X e Y , são independentes, se a sua função (densidade) de probabilidade conjunta f ( x , y ) , for igual ao produto das funções (densidade) de probabilidade marginais, isto é:

X e Y são independentes se f ( x , y ) = f X ( x ) ⋅ f Y ( y ) , ∀( x , y ) Como consequência da definição temos que X e Y são independentes se e só se: f X Y = y ( x ) = f X ( x ) ou f Y X = x ( y ) = f Y ( y ) Teorema Se duas variáveis aleatórias X e Y são independentes então a Cov ( X , Y ) = 0 Nota: a recíproca não é verdadeira. Duas variáveis podem ter Cov ( X , Y ) = 0 e não serem independentes. Apenas podemos garantir que não existe relação linear entre as duas variáveis. No entanto, pode existir outro tipo de relação, que não a linear, e não serem independentes. 62


ÍNDICE 4. DISTRIBUIÇÕES TEÓRICAS................................................................................................63 4.1. INTRODUÇÃO ...........................................................................................................................63 4.2. DISTRIBUIÇÕES TEÓRICAS DISCRETAS......................................................................................64 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.2.6

Prova de Bernoulli ..................................................................................................................................64 Distribuição binomial ............................................................................................................................65 Distribuição binomial negativa. ..........................................................................................................65 Distribuição geométrica. .......................................................................................................................66 Distribuição hipergeométrica. ..............................................................................................................67 Distribuição de Poisson.........................................................................................................................68 4.3 DISTRIBUIÇÕES TEÓRICAS CONTÍNUAS ................................................................................69 4.3.1 Distribuição uniforme ............................................................................................................................69 4.3.2 Distribuição exponencial .......................................................................................................................70 4.3.3 Distribuição normal ...............................................................................................................................71 4.4 TEOREMA DO LIMITE CENTRAL ............................................................................................74

4.5

APROXIMAÇÕES ENTRE AS DISTRIBUIÇÕES ..........................................................................74

i


D I S T R I B U I Ç Õ E S

T E Ó R I C A S

Capítulo

4 4. Distribuições Teóricas

4.1. Introdução Existem variáveis aleatórias que têm uma função de distribuição pertencente a uma classe de distribuições teóricas. As distribuições teóricas, que como o nome indica foram sujeitas a um estudo prévio, têm propriedades conhecidas que nos permitem numa situação em que a distribuição esteja identificada, tirar partido desse trabalho teórico que já foi efectuado e assim pouparmos tempo na análise do problema que estivermos a estudar. As distribuições teóricas que nós vamos estudar são as seguintes: Caso discreto •

Distribuição binomial

Distribuição binomial negativa

Distribuição geométrica

Distribuição hipergeométrica

Distribuição de Poisson

Caso contínuo •

Distribuição uniforme

Distribuição exponencial

Distribuição normal

Algumas distribuições teóricas contínuas (como a distribuição t de Student, a distribuição qui-quadrado e a distribuição F de Snedecor) irão ser estudadas no capítulo 5, onde são aplicadas em contextos muito próprios.

63


D I S T R I B U I Ç Õ E S

T E Ó R I C A S

4.2. Distribuições teóricas discretas 4.2.1

Prova de Bernoulli

A prova de Bernoulli é uma experiência aleatória que serve de base a várias distribuições teóricas que vamos estudar (a distribuição binomial, a distribuição binomial negativa e a distribuição geométrica). Consideremos uma experiência aleatória na qual existem apenas dois acontecimentos em que estamos interessados: o acontecimento A que designaremos por sucesso e o acontecimento contrário, A , que designaremos por insucesso. O sucesso ocorre com probabilidade p , e o insucesso com probabilidade q = 1 − p . O espaço de resultados está assim particionado em dois acontecimentos S = A , A , em que:

{

}

A =sucesso; A =insucesso;

P( A ) = p ;

P( A ) = q = 1 − p . A uma experiência aleatória com as características anteriores dá-se o nome de prova de Bernoulli. Sucessão de provas de Bernoulli: Vamos definir sucessão de provas de Bernoulli como o processo caracterizado por repetidas provas que têm lugar nas seguintes condições: 1- Em cada prova só estamos interessados em dois acontecimentos, A ou A. 2- A probabilidade de sucesso, designada por p , mantém-se constante de prova para prova. A probabilidade de insucesso designa-se por q = 1− p . 3- As provas são independentes, isto é, os resultados obtidos numa sequência de provas não influenciam os resultados da(s) prova(s) subsequente(s).

64


D I S T R I B U I Ç Õ E S

4.2.2

T E Ó R I C A S

Distribuição binomial

Consideremos uma sucessão de n provas de Bernoulli. A variável aleatória que representa o número de sucessos obtidos nas n provas de Bernoulli tem distribuição binomial. X = variável aleatória que representa o número de sucessos obtidos na realização de uma sucessão de n provas de Bernoulli. X tem distribuição binomial com parâmetros n e p ⇔ X ∩ B( n , p ) com

x ∈ {0,1,..., n} . Os parâmetros n e p são dois valores que é necessário conhecer para que a distribuição da variável aleatória fique completamente definida. Os valores que a variável pode tomar são representados por x , e pode ser qualquer valor inteiro desde 0 até n. A probabilidade da variável aleatória tomar o valor x é dada por:

n  P( X = x ) = b (x ; n ; p ) =   ⋅ p x ⋅ q n − x x = 0, 1, , ..., n x   

(1)

Demonstra-se que se a variável aleatória X tem distribuição binomial com parâmetros n e p então:

E( X ) = n ⋅ p

(2)

Var ( X ) = n ⋅ p ⋅ q

(3)

4.2.3

Distribuição binomial negativa.

Consideremos uma sucessão de provas de Bernoulli. A variável aleatória que representa o número de provas realizadas até obtermos k sucessos tem distribuição binomial negativa. X = variável aleatória que representa o número de provas de Bernoulli realizadas até obtermos k sucessos. X tem distribuição binomial negativa com parâmetros k e p ⇔ X ∩ BN ( k , p ) com x ∈ {k , k + 1,...} . Os parâmetros k e p são dois valores que é necessário conhecer para que a distribuição da variável aleatória fique completamente definida. Os valores que a variável pode tomar são representados por x , e pode ser qualquer valor inteiro desde k até + ∞ . A probabilidade da variável aleatória tomar o valor x é dada por:

65


D I S T R I B U I Ç Õ E S

T E Ó R I C A S

 x − 1  k x −k P ( X = x ) = bn ( x ; k; p ) =  ⋅ p ⋅q  k − 1

x = k , k + 1, ... (4)

Demonstra-se que se a variável aleatória X tem distribuição binomial negativa com parâmetros k e p então:

E( X ) =

k p

Var ( X ) =

4.2.4

(5)

k⋅q p2

(6)

Distribuição geométrica.

A distribuição geométrica é um caso particular da distribuição binomial negativa em que k = 1 . Consideremos uma sucessão de provas de Bernoulli. A variável aleatória que representa o número de provas realizadas até obtermos 1 sucesso tem distribuição geométrica. X = variável aleatória que representa o número de provas de Bernoulli realizadas até obtermos 1 sucesso. X tem distribuição geométrica com parâmetro p ⇔ X ∩ G( p ) com

x ∈ {1,2,...}. O parâmetro p é um valor que é necessário conhecer para que a distribuição da variável aleatória fique completamente definida. Os valores que a variável pode tomar são representados por x , e pode ser qualquer valor inteiro desde 1 até + ∞ . A probabilidade da variável aleatória tomar o valor x é dada por:

P( X = x ) = g (x ; p ) = p ⋅ q x −1

x = 1, 2, ...

(7)

Demonstra-se que se a variável aleatória X tem distribuição geométrica com parâmetro p então:

E( X ) =

1 p

Var ( X ) =

(8)

q

(9)

p2

66


D I S T R I B U I Ç Õ E S

4.2.5

T E Ó R I C A S

Distribuição hipergeométrica.

Suponhamos que temos um conjunto de N elementos e que M destes elementos têm uma certa característica em que estamos interessados (sucesso); logo os outros N-M elementos não têm essa característica. Ao retirarmos n elementos do conjunto inicial de N elementos (retirar de forma aleatória e sem reposição) consideremos X a variável aleatória que representa o número de elementos que são retirados e que têm a característica em que estamos interessados. A variável aleatória definida nas condições anteriores tem distribuição hipergeométrica com parâmetros N, M e n ⇔ X ∩ H ( N , M , n ) . A probabilidade da variável aleatória tomar o valor x é dada por:

M N − M    ⋅  x   n−x   P ( X = x ) = h (x ; N ; M ; n ) =    N    n  

(10)

com x = máx {0, n − ( N − M )}, ..., min{n , M } Demonstra-se que se a variável aleatória X tem distribuição hipergeométrica com parâmetros N, M, n então:

E( X ) = n ⋅

M N

Var ( X ) = n ⋅

(11)

M  N − M   N −n  ⋅  ⋅  N  N   N −1

67

(12)


D I S T R I B U I Ç Õ E S

4.2.6

T E Ó R I C A S

Distribuição de Poisson.

A distribuição de Poisson (que deve o seu nome ao físico francês Simon Poisson) está associada a um grande conjunto de situações práticas cujos alguns exemplos são os seguintes:

• Número de chamadas telefónicas que chegam num período de uma hora a uma central telefónica. • Número de microorganismos numa determinada quadrícula de 1mm2 de área. • Número de partículas defeituosas num cm3 de volume de um certo líquido. • Número de defeitos num metro de comprimento, dum fio produzido por uma máquina têxtil. Todos os exemplos apresentados têm uma característica comum: a variável aleatória em estudo representa o número de ocorrências de um certo acontecimento ao longo de um dado espaço contínuo (tempo, comprimento, área ou volume). Os valores que a variável aleatória pode tomar são valores inteiros não negativos: 0,1,..., n ,... . Outras características que devem estar presentes para que estejamos na presença de uma distribuição de Poisson são:

• O número de ocorrências em intervalos não sobrepostos são variáveis independentes. • A probabilidade de um certo número de ocorrências se verificar é a mesma para intervalos da mesma dimensão; isto é, aquela probabilidade depende apenas da amplitude do intervalo e não da posição em que se situa nesse intervalo. • As ocorrências do fenómeno descrito verificam-se uma a uma e nunca em grupos. A variável aleatória definida nas condições anteriores tem distribuição de Poisson com parâmetro λ ⇔ X ∩ P ( λ ) . O parâmetro λ representa o número médio de ocorrências no espaço contínuo em estudo. A probabilidade da variável aleatória tomar o valor x é dada por:

P ( X = x ) = p (x ; λ ) =

e −λ ⋅ λx x! 68

x = 0, 1, 2, ...

(13)


D I S T R I B U I Ç Õ E S

T E Ó R I C A S

Demonstra-se que se a variável aleatória X tem distribuição de Poisson com parâmetro λ então:

4.3

E( X ) = λ

(14)

Var ( X ) = λ

(15)

Distribuições teóricas contínuas 4.3.1

Distribuição uniforme

Consideremos uma variável aleatória contínua, cujos valores podem ocorrer dentro dum intervalo limitado (aberto ou fechado) (a , b ) . Se quaisquer dois sub-intervalos de igual amplitude têm a mesma probabilidade, então a variável aleatória tem distribuição uniforme. Diz-se que a variável aleatória contínua X tem distribuição uniforme no intervalo (a , b ) e escreve-se X ∩ U ( a , b ) se a sua função de densidade de probabilidade for dada por:  1  f ( x) =  b − a 0

a< x<b

(16)

outros valores

Os parâmetros caracterizadores desta distribuição são a e b , que satisfazem a condição: − ∞ < a < b < +∞ Facilmente se deduz que a função de distribuição F ( x ) é dada por:

x ≤a 0 x − a F( x ) =  a <x <b b − a  x ≥b 1

(17)

Demonstra-se que se a variável aleatória X tem distribuição uniforme no intervalo (a , b ) então:

E( X ) =

a +b 2

Var ( X ) =

(18)

(b − a )2

(19)

12

69


D I S T R I B U I Ç Õ E S

4.3.2

T E Ó R I C A S

Distribuição exponencial

Diz-se que a variável aleatória contínua X , tem distribuição exponencial e escreve-se X ∩ Exp( λ ) se a sua função de densidade de probabilidade for dada por:

f ( x ) = λ ⋅ e − λx , x > 0

(20)

onde λ é o parâmetro caracterizador da distribuição, sendo λ > 0 . Demonstra-se que se a variável aleatória X tem distribuição exponencial de parâmetro λ então:

E( X ) =

1 λ

Var ( X ) =

(21)

1 λ2

(22)

A distribuição exponencial está intimamente ligada com a distribuição de Poisson. Demonstra-se que se o número de ocorrências de um certo acontecimento segue uma distribuição de Poisson, a “medida de espaço” entre duas ocorrências consecutivas ou a “medida de espaço” até à primeira ocorrência segue uma distribuição exponencial. A distribuição exponencial é também usualmente utilizada na descrição do tempo de vida de aparelhos, de organismos, etc – lei de falhas exponencial.

Exemplo 4.1: Consideremos uma variável aleatória X que representa o número de clientes que chegam a uma certa agência bancária num período de uma hora. Suponhamos que X ∩ P ( 4 ) . Podemos concluir que em média chegam 4 clientes por hora. Consideremos agora uma variável Y que representa o tempo entre duas chegadas consecutivas de clientes à mesma agência bancária. Se em média chegam 4 clientes por hora podemos concluir que o tempo médio entre chegadas é de

1 da hora, ou seja 15 minutos. 4

Como vamos ver a seguir existe um teorema que nos garante que a variável aleatória Y tem distribuição exponencial com parâmetro 4 . A unidade de tempo considerada para a variável Y é exactamente o comprimento do período de contagem da variável aleatória X que lhe está associada.

70


D I S T R I B U I Ç Õ E S

T E Ó R I C A S

Teorema Consideremos uma variável aleatória X que tem distribuição de Poisson com parâmetro λ para um certo intervalo de espaço contínuo (tempo, comprimento, área ou volume). A variável aleatória contínua que representa o comprimento de espaço entre duas ocorrências consecutivas tem distribuição exponencial com o mesmo parâmetro λ . Nota: A unidade de medida da variável Y é o comprimento do intervalo de contagem da variável X , tornando-se assim importante que este seja do comprimento de uma unidade do espaço contínuo em que estamos a trabalhar. 4.3.3

Distribuição normal

A distribuição normal é a distribuição mais utilizada na estatística. A grande maioria das variáveis aleatórias contínuas que descrevem processos físicos ou características humanas seguem uma distribuição normal. Por vezes, as variáveis aleatórias não seguem distribuição normal mas aproximam-se muito desta distribuição. Por outro lado, a distribuição normal desempenha um papel crucial na inferência estatística (capítulo 6). Diz-se que uma variável aleatória contínua X tem distribuição normal e escrevese X ∩ N (µ; σ ) se a sua função densidade de probabilidade for dada por: 2

( x −µ ) − 1 f(x)= ⋅ e 2 ⋅σ 2 com − ∞ < x < +∞ σ 2π

(23)

onde µ e σ são os parâmetros caracterizadores da distribuição. Se a variável aleatória X tem distribuição normal então:

E( X ) = µ

(24)

Var ( X ) = σ 2

(25)

Propriedades da distribuição normal: 1. Distribuição simétrica relativa ao valor médio. 2. Gráfico:

f(x)

-5

-4

-3

-2

-1

0

Valores de x 71

1

2

3

4

5


D I S T R I B U I Ç Õ E S

3.

T E Ó R I C A S

99,99% dos valores da variável pertencem ao intervalo [µ − 4 σ, µ + 4 σ] .

4. Na figura seguinte estão representadas duas distribuições normais que têm o mesmo valor médio mas diferentes desvios padrões (σ1 < σ 2 ) :

σ1

σ2

Teorema Seja X uma v.a. com distribuição normal de média µ e desvio padrão σ .

X −µ . A variável aleatória Z tem σ distribuição normal de média 0 e desvio padrão 1 , isto é, Z ∩ N (0; 1 ) ) . A esta Consideremos a variável aleatória Z =

distribuição normal dá-se o nome de normal estandardizada ou normal reduzida. Cálculo de probabilidades na distribuição normal. Seja X ∩ N (µ; σ ) . Calcular o valor de P ( a ≤ X ≤ b ) implica calcular o valor 2

( x −µ ) − 1 de: ∫ ⋅ e 2⋅σ 2 dx o que não é um cálculo trivial. a σ 2π b

Poderíamos construir uma tabela que nos desse o valor da função de distribuição para diversos pontos da variável mas nesse caso teríamos de ter um infinito número de tabelas (já que existem infinitas distribuições normais). No entanto, dado que pelo teorema anterior qualquer distribuição normal pode ser reduzida à distribuição Z ∩ N (0; 1 ) ) , existe uma tabela para a função de distribuição da variável Z que tem distribuição normal com média 0 e desvio padrão 1 . Esta função vamos representar por Φ( z ) = P ( Z ≤ z ) .

72


D I S T R I B U I Ç Õ E S

T E Ó R I C A S

Deste modo para calcular o valor de P (a ≤ X ≤ b) e dado que este valor é o mesmo que P (

a −µ b −µ b −µ a −µ ≤Z ≤ ) = Φ  − Φ  vamos utilizar a σ σ  σ   σ 

tabela da função de distribuição da normal reduzida. Teorema da aditividade da normal Consideremos n variáveis aleatórias independentes X i ( i = 1,2,..., n ) em que n

X i ∩ N ( µ i ; σ i ) . A variável S = ∑ X i tem a seguinte distribuição: i =1

n n  n  S = ∑ X i ∩ N  ∑ µ i ; ∑ σ i2  i =1 i =1  i =1 

(26)

Como resultados do teorema anterior podemos deduzir: Corolário 1

X i ( i = 1,2,..., n ) são variáveis aleatórias independentes em que X i ∩ N ( µ; σ ) então :

Se

n

(

S = ∑ X i ∩ N n ⋅ µ; n ⋅ σ

)

(27)

i =1

Corolário 2 Se X 1 ∩ N ( µ1 ; σ1 ) e X 2 ∩ N ( µ 2 ; σ 2 ) e forem independentes então:

( ∩ N (µ

X 1 + X 2 ∩ N µ1 + µ 2 ; σ12 + σ 22 X1 − X 2

1

− µ 2 ; σ12 + σ 22

) )

(28) (29)

Corolário 3 n

∑ Xi

Se X i ∩ N ( µ; σ ) então X = i =1

n

tem distribuição:

 σ  X ∩ N  µ;  n 

(30)

73


D I S T R I B U I Ç Õ E S

T E Ó R I C A S

Teorema do limite central Seja

X i ( i = 1,2,..., n ) uma sucessão de n variáveis aleatórias i.i.d.

(independentes e identicamente distribuídas), com E(X i ) = µ e Var (X i ) = σ , quando n → ∞ , isto é, para n suficientemente grande (em geral n ≥ 30 ), a 2

variável S =

n

∑ Xi

tem aproximadamente a seguinte distribuição:

i =1 n

o

(

S = ∑ X i ∩ N n µ; σ n

)

(31)

i =1

4.4

Aproximações entre as distribuições

É possível utilizar um conjunto de relações existentes entre as diferentes distribuições (sob certas condições) para calcular probabilidades de forma aproximada. As diferentes relações existentes encontram-se esquematizadas na figura seguinte:

Hipergeométrica N, M, n

n ≤ 0,1 N p=

M N

n → ∞ ( n grande)   p → 0 ( p < 0,1 ∨ p > 0,9)

Binomial n, p

Poisson λ

λ = np

n 0,1 ≤ p ≤ 0,9  np > 5 ∧ n(1 − p) > 5

µ = np  2 σ = np(1 − p )

λ > 20

µ = σ2 = λ

λ>

Normal µ, σ

De notar que no caso em que a variável em causa é uma variável discreta (binomial e/ou Poisson) e se utiliza a distribuição normal (distribuição contínua) para o cálculo da probabilidade pretendida deveremos utilizar a chamada correcção de continuidade:

P ( X = k ) = P (k − 0,5 < X < k + 0,5)

74

(32)


ÍNDICE 5. INFERÊNCIA ESTATÍSTICA.................................................................................................75 5.1. INTRODUÇÃO ...........................................................................................................................75 5.2. INTERVALOS DE CONFIANÇA ...................................................................................................76 5.3. TESTES DE HIPÓTESES...............................................................................................................77 5.4. ALGUMAS DISTRIBUIÇÕES .......................................................................................................81 5.4.1 5.4.2 5.4.3

Distribuição t de Student.......................................................................................................................81 Distribuição do Qui-quadrado .............................................................................................................82 Distribuição F de Snedecor ....................................................................................................................82

5.5 ESCOLHA DA ESTATÍSTICA ADEQUADA AO TESTE ....................................................................83 5.5.1 5.5.2 5.5.3 5.5.4 5.5.5 5.5.6

5.6 5.7

Teste para o valor médio de uma população ......................................................................................83 Teste para a proporção de uma população .........................................................................................84 Teste para a variância de uma população...........................................................................................84 Teste para a diferença de valores médios de duas populações. ........................................................84 Teste para a diferença de proporções de duas populações. ...............................................................86 Teste para o quociente de variâncias de duas populações ................................................................86

ERROS ASSOCIADOS A UM TESTE DE HIPÓTESES ..................................................................87 TESTE DE AJUSTAMENTO DO QUI-QUADRADO ...................................................................87


I N F E R Ê N C I A

E S T A T Í S T I C A

5

Capítulo

5. Inferência Estatística 5.1. Introdução A estatística descritiva engloba uma série de técnicas e procedimentos com o objectivo de estudar e analisar as características que descrevem um conjunto de dados (amostra). Um objectivo mais ambicioso é o de com base nesse estudo conseguirmos generalizar e tirarmos conclusões sobre as características que constituem o conjunto do qual provém as observações que analisámos (população). A inferência estatística engloba um conjunto de técnicas e procedimentos que nos permitem então generalizar a informação contida numa amostra para a população da qual aquela provém (ver figura seguinte).

POPULAÇÃO Características Desconhecidas ??????

Técnicas de amostragem INFERÊNCIA ESTATÍSTICA

AMOSTRA Características conhecidas

ESTATÍSTICA DESCRITIVA

75


I N F E R Ê N C I A

E S T A T Í S T I C A

5.2. Intervalos de confiança Uma das técnicas da inferência estatística é a construção de intervalos de confiança para os parâmetros de uma certa população: valor esperado, variância ou proporção. Com base numa estimativa destes parâmetros (calculada através de estatísticas sobre uma amostra aleatória) pretende-se obter um intervalo de valores dentro do qual se encontra o “verdadeiro” valor do parâmetro em estudo. Associado aos intervalos está a medida de confiança que neles depositamos (um valor entre 0% e 100%) que corresponde à probabilidade de o parâmetro se encontrar dentro do intervalo. Suponhamos que temos uma certa população relativamente à qual estamos interessados em analisar uma certa característica cujos valores são dados pela variável aleatória X . Suponhamos ainda que esta variável aleatória segue uma distribuição normal com valor médio, µ , desconhecido e desvio padrão, σ , conhecido. Uma amostra aleatória é composta por n observações desta variável aleatória. Podemos então dizer que ( X 1 , X 2 ,..., X n ) com X i ∩ N ( µ , σ ) e independentes entre si, definem todas as amostras aleatórias que é possível retirar da população (relativamente à variável aleatória X ). A estatística média amostral, X , é definida em função das amostras aleatórias: n

X =

∑ Xi

i =1

n

.

⎛ σ ⎞ Com base no estudo efectuado em 4.3.3 podemos concluir que X ∩ N ⎜ µ , ⎟. n⎠ ⎝ Dado que P(−1.96 ≤ Z ≤ 1.96) = 0.95 sendo Z uma variável aleatória tal que Z ∩ N (0,1) podemos concluir que:

⎞ ⎛ ⎟ ⎜ X −µ ≤ 1.96 ⎟ = 0.95 P⎜ − 1.96 ≤ σ ⎟ ⎜ n ⎠ ⎝

(1)

Através de algumas operações algébricas temos que: ⎛ σ σ ⎞ P⎜⎜ X − 1.96 ⋅ ≤ µ ≤ X + 1.96 ⋅ ⎟⎟ = 0.95 n n⎠ ⎝

(2)

o que nos permite afirmar que temos 95% de confiança de que o valor médio da população, µ (que é desconhecido) se encontra algures no intervalo

σ σ ⎤ ⎡ ⎢ X − 1.96 ⋅ n , X + 1.96 ⋅ n ⎥ . Podemos generalizar esta fórmula e obter o ⎣ ⎦ 76


I N F E R Ê N C I A

E S T A T Í S T I C A

intervalo de confiança a C % para o valor médio de uma população com distribuição normal e desvio padrão conhecido (com 0 < C < 100) dado por :

σ σ ⎤ ⎡ ⎢X − z ⋅ n , X + z ⋅ n ⎥ ⎣ ⎦

(3)

onde z é o valor tal que P(− z ≤ Z ≤ z ) = C % com Z ∩ N (0,1) :

Em secções seguintes iremos ver os intervalos de confiança para outros parâmetros da população e também para o valor médio quando os pressupostos agora exigidos não são verificados.

5.3. Testes de hipóteses Um teste de hipóteses é um procedimento da inferência estatística utilizado para testar uma certa hipótese que se levanta sobre as características de uma dada população. Uma hipótese pode ser definida neste contexto como uma conjectura acerca de uma ou mais populações. De uma forma simplista o procedimento consiste em com base numa amostra aleatória da população, constatar se os valores observados estão ou não de acordo com as hipóteses levantadas. Um teste de hipóteses pode ser decomposto em quatro fases: 1º Definição das hipóteses. Um teste de hipóteses tem sempre duas hipóteses em confronto uma com a outra. Uma vez especificada a hipótese que se pretende testar, que designamos por hipótese alternativa ( H 1 ) define-se a hipótese complementar de H 1 , que designamos por hipótese nula e representamos por: H 0 . A estratégia seguida num teste de hipóteses consiste em tentar suportar a validade de H 1 conseguindo-se mostrar que com uma elevada probabilidade H 0 é falsa. Se, pelo contrário, os dados amostrais não nos permitirem rejeitar H 0 , a hipótese H 1 não será reforçada pelo teste. Em relação à formulação das hipóteses, é importante notar os pontos seguintes:

77


I N F E R Ê N C I A

E S T A T Í S T I C A

a. A hipótese alternativa contém sempre uma desigualdade (que se traduz pelos sinais > ou <) ou uma não igualdade (sinal ≠ ), mas nunca uma igualdade (sinal =). b. A hipótese nula é considerada verdadeira ao longo do procedimento do teste até ao momento em que haja evidência estatística clara apontando em sentido contrário. Neste caso (quando rejeitarmos H 0 ) aceita-se como válida a hipótese alternativa (visto que as hipóteses são complementares). c. A hipótese nula contém sempre uma igualdade. Quando na hipótese nula faz sentido figurar o sinal ≥ ou o sinal ≤ o teste é efectuado considerando apenas a situação em que H 0 mais se aproxima de H 1 , ou seja supondo que é verdadeira a afirmação de H 0 que corresponde à igualdade. d. Quando a hipótese alternativa contiver uma desigualdade (sinal > ou <) o teste diz-se unilateral (à direita para o sinal de >, à esquerda para o sinal de <). Quando H 1 envolver uma não igualdade o teste diz-se bilateral. 2º Identificação da Estatística de Teste e caracterização da sua distribuição amostral. A estatística (valor calculado com base numa amostra aleatória) que é utilizada para ver a plausibilidade da hipótese nula designa-se por estatística de teste, sendo representada por ET . A estatística de teste a utilizar depende assim do(s) parâmetro(s) em estudo, do conhecimento que tenhamos sobre a população e de outros factores tal como a dimensão da amostra que estamos a utilizar. Para que a estatística de teste possa cumprir a sua função é necessário conhecer a sua distribuição amostral sob a suposição de que a hipótese nula é verdadeira. Escolhida a estatística de teste e identificada a sua distribuição amostral o valor de ET é então calculado com base na amostra e caso dê uma valor “estranho” é porque é razoável admitir que H 1 é verdadeira rejeitando assim a suposição da veracidade de H 0 . A definição do conceito de valor “estranho” é feita a seguir. 3º Definição da regra de decisão. De modo a podermos tomar a decisão de rejeitarmos ou não a hipótese nula temos de construir uma regra de decisão que nos permita optar por uma daquelas duas opções. Esta regra de decisão vai basear-se no valor observado de ET e caso este pertença a um conjunto de valores considerados “estranhos” (no sentido do que seria de esperar caso H 0 fosse mesmo verdadeira) decidimos rejeitar H 0 (sendo levados a aceitar H 1 ).

78


I N F E R Ê N C I A

E S T A T Í S T I C A

Este conjunto de valores “estranhos” para o que seria de esperar caso H 0 fosse verdadeira, chama-se Região de Rejeição e define, tipicamente, valores extremos da distribuição amostral da estatística de teste. A compreensão da região de rejeição é melhor conseguida através da realização do exemplo que apresentamos mais à frente. 4º Cálculo da estatística de teste e tomada de decisão. A fase final de um teste de hipótese consiste em calcular o valor observado de ET e caso este pertença à região de rejeição rejeitar a hipótese nula (aceitando a hipótese alternativa). Caso contrário, o teste de hipóteses não nos apresenta razões suficientes que nos levem a aceitar H 1 como verdadeira (situação em que não rejeitamos H 0 ). Exemplo 5.1: Consideremos a população de um determinado país e a variável idade dos elementos dessa população. De estudos passados sabemos que a idade de uma pessoa escolhida ao acaso de entre toda a população do país segue uma distribuição normal de valor médio 40 anos e desvio padrão 10 anos. No entanto, diversos estudos têm referido a hipótese de que a população está mais envelhecida. Para testar esta hipótese recolheu-se uma amostra aleatória de 100 pessoas que apresentou uma média de idades de 45 anos. Hipótese a testar: a população do País está mais velha ( µ > 40 ). Amostra aleatória de 100 elementos que nos forneceu X = 45 . O problema passa por saber até que ponto podemos considerar o valor amostral ( X = 45 ) suficientemente maior que o valor que se acredita para o parâmetro ( µ = 40 ) de modo a rejeitarmos este valor e passarmos a aceitar que a população está mais velha. Teste de hipóteses 1º Definição das hipóteses.

H 0 : µ = 40 vs H1 : µ > 40 2º Identificação da Estatística de Teste e caracterização da sua distribuição amostral. Estando nós a testar o parâmetro valor médio ( µ ) e sendo a nossa população normalmente distribuída com desvio padrão conhecido ( σ = 10 ) podemos utilizar a estatística de teste:

79


I N F E R Ê N C I A

ET =

E S T A T Í S T I C A

X −µ

σ

n que sob as hipóteses atrás definidas tem uma distribuição N (0,1) . 3º Definição da regra de decisão. Como a hipótese a testar ( H 1 : u > 40 ) é de maior (teste unilateral à direita) somos levados a rejeitar a hipótese nula quando a estatística de teste apresentar valores elevados. O problema agora coloca-se em saber a partir de que valor é que a estatística de teste é considerada elevada. Se a hipótese nula ( H 0 : u = 40 ) for verdadeira a estatística de teste, ET , segue uma distribuição normal padronizada. A região assinalada na figura seguinte corresponde a valores de ET que, se H 0 for verdadeira, ocorrem com baixa probabilidade (são valores extremos). Deste modo, tais valores são mais plausíveis se a hipótese alternativa ( H 1 : u > 40 ) for verdadeira.

A região assinalada corresponderá à região de rejeição, desde que seja adoptada a seguinte regra de decisão: 1. se o valor calculado para a estatística de teste pertencer à região de rejeição, isto é se ET > vc , então a hipótese nula será rejeitada ( vc designa-se habitualmente por valor crítico). 2. se a estatística de teste não se situar dentro da região de rejeição, então a hipótese nula não será rejeitada e apenas podemos dizer que não encontrámos razões suficientes que nos levem a aceitar H 1 como verdadeira. A probabilidade α , de no caso de H 0 ser verdadeira, a ET pertencer à região de rejeição designa-se por nível de significância do teste. O nível de significância do teste representa, então, a probabilidade (ou o risco) de se incorrer no erro de rejeitar H 0 quando esta hipótese é de facto verdadeira. Esse erro é o que se designa por erro de tipo I. 80


I N F E R Ê N C I A

E S T A T Í S T I C A

No nosso exemplo e com um nível de significância de 5% obtemos o valor critico de 1.645 . Temos então como região de rejeição: R.R = {ET : ET > 1.645}

4º Cálculo da estatística de teste e tomada de decisão. Com base nos valores observados na amostra vamos calcular o valor da estatística de teste:

ET =

X −µ

σ

=

n

45 − 40 =5 10 100

Com base neste valor vamos tomar a nossa decisão:

ET = 5 ∈ R.R ⇒ rejeitar H 0 . Conclusão: Temos razões para acreditar que a população do país envelheceu.

5.4. Algumas distribuições 5.4.1

Distribuição t de Student

Diz-se que a variável aleatória X tem distribuição t de Student com n graus de liberdade e escreve-se X ∩ t (n) quando a sua f.d.p. tem a forma:

⎛ n +1⎞ n +1 Γ⎜ ⎟ 2 − 2 ⎞ ⎛ x 2 ⎠ ⎜1 + ⎟ f ( x) = ⎝ n ⎟⎠ ⎛ n ⎞ ⎜⎝ nπ Γ⎜ ⎟ ⎝2⎠

com − ∞ < x < +∞ e n > 0

+∞

sendo Γ( w) = ∫ x w−1e − x dx para w > 0 . 0

Propriedades 1. É uma função simétrica em relação ao eixo x = 0 . 2. Se X ∩ t (n) então demonstra-se que: E( X ) = 0 Var ( X ) =

n se n > 2 n−2

81

(4)


I N F E R Ê N C I A

E S T A T Í S T I C A

3. O seu aspecto gráfico depende do parâmetro n mas assemelha-se ao da normal. 5.4.2

Distribuição do Qui-quadrado

Diz-se que a variável aleatória X tem distribuição do Qui-quadrado com n graus de liberdade e escreve-se X ∩ χ 2 (n) quando a sua f.d.p. tem a forma:

f ( x) =

1 ⎛n⎞ 2 Γ⎜ ⎟ ⎝2⎠ n 2

x 2

e .x

n −1 2

n > 0, x > 0

(5)

Propriedades 1. É uma função positiva e não simétrica. 2. Se X ∩ χ 2 (n) então demonstra-se que:

E( X ) = n Var ( X ) = 2n 3. O seu aspecto gráfico depende do parâmetro n . Na figura abaixo temos alguns exemplos:

5.4.3

Distribuição F de Snedecor

Diz-se que a variável aleatória X tem distribuição F de Snedecor com m e n graus de liberdade e escreve-se X ∩ F (m, n) quando a sua f.d.p. tem a forma: ⎛m+n⎞ m−2 m Γ⎜ ⎟ 2 2 m x 2 ⎛ ⎞ ⎠ f ( x) = ⎝ x > 0 com m, n > 0 ⎜ ⎟ m+ n ⎛m⎞ ⎛n⎞⎝ n ⎠ 2 Γ⎜ ⎟Γ⎜ ⎟ ⎛ m ⎞ ⎜1 + x ⎟ ⎝ 2 ⎠ ⎝2⎠ n ⎠ ⎝

Propriedades 82

(6)


I N F E R Ê N C I A

E S T A T Í S T I C A

1. É uma função positiva e não simétrica. 2. Se X ∩ F (m, n) , então demonstra-se que: n se n > 2 n−2 2 n 2 ( m + n − 2) Var ( X ) = se n > 4 m ( n − 2) 2 ( n − 4) E( X ) =

3. O seu aspecto gráfico depende dos parâmetros m e n . Na figura abaixo temos alguns exemplos:

4. Se a variável aleatória X ∩ F (m, n) então

1 ∩ F (n, m) X

5.5 Escolha da estatística adequada ao teste 5.5.1

Teste para o valor médio de uma população

1º) População normal com σ conhecido ET =

X −µ

σ

∩ N (0,1)

(7)

n

σ σ ⎤ ⎡ Intervalo de confiança para µ : ⎢ X − z ⋅ ,X + z⋅ . n n ⎥⎦ ⎣ 2º) População normal com σ desconhecido e amostra pequena ( n < 30 ) ET =

X −µ ∩ t (n − 1) s' n

(8)

s' s' ⎤ ⎡ ,X +t⋅ Intervalo de confiança para µ : ⎢ X − t ⋅ . n n ⎥⎦ ⎣

83


I N F E R Ê N C I A

E S T A T Í S T I C A

3º) População normal ou não com σ desconhecido e amostra grande ( n ≥ 30 ) ET =

X −µ D ∩ N (0,1) s' n

(9)

s' s' ⎤ ⎡ ,X + z⋅ Intervalo de confiança para µ : ⎢ X − z ⋅ n n ⎥⎦ ⎣ Nota: Se a população não é conhecida ou é não normal mas n ≥ 30 a distribuição é aproximadamente normal. 5.5.2

Teste para a proporção de uma população

1º) Amostra grande ( n ≥ 30 ) ET =

p* − p D ∩ N (0,1) pq n

(10)

⎡ * p*q * * p*q * ⎤ Intervalo de confiança para p : ⎢ p − z ,p +z ⎥. n n ⎥⎦ ⎣⎢

5.5.3

Teste para a variância de uma população

1º) População normal ET =

( n − 1) s '2

σ2

=

ns 2

σ2

∩ χ 2 ( n − 1)

(11)

⎡ (n − 1) s'2 (n − 1) s'2 ⎤ , Intervalo de confiança para σ 2 : ⎢ ⎥. 2 2 χ inf ⎣⎢ χ sup ⎦⎥ 5.5.4

Teste para a diferença de valores médios de duas populações.

1º) Amostras independentes, populações normais, σ 1 e σ 2 conhecidos

ET =

( X 1 − X 2 ) − ( µ1 − µ 2 )

σ 12 n1

+

σ 22

∩ N (0,1)

n2

Intervalo de confiança para µ1 − µ 2 :

84

(12)


I N F E R Ê N C I A

E S T A T Í S T I C A

⎡ σ 12 σ 22 σ 12 σ 22 ⎤ ( X X ) z , ( X X ) z − − + − + + ⎢ 1 ⎥ 2 1 2 n n n n2 ⎥⎦ 1 2 1 ⎣⎢

2º) Amostras independentes, populações normais, σ 1 e σ 2 desconhecidos, amostras pequenas ( n1 < 30 ∨ n2 < 30 ) e sabe-se que σ 1 = σ 2 ET =

( X 1 − X 2 ) − ( µ1 − µ 2 ) ⎛1 1⎞ s ⎜⎜ + ⎟⎟ ⎝ n1 n2 ⎠

∩ t (n1 + n2 − 2)

(13)

2 p

com s 2p =

(n1 − 1) s'12 +(n2 − 1) s '22 n1 + n2 + 2

Intervalo de confiança para µ1 − µ 2 :

⎡ ⎛ 1 1 ⎞⎤ ⎛1 1⎞ ⎢( X 1 − X 2 ) − t s 2p ⎜⎜ + ⎟⎟ , ( X 1 − X 2 ) + t s 2p ⎜⎜ + ⎟⎟ ⎥ ⎢⎣ ⎝ n1 n2 ⎠ ⎥⎦ ⎝ n1 n2 ⎠ 3º) Amostras independentes, populações normais, σ 1 e σ 2 desconhecidos, amostras pequenas ( n1 < 30 ∨ n2 < 30 ) e sabe-se que σ 1 ≠ σ 2

ET =

( X 1 − X 2 ) − ( µ1 − µ 2 ) s'12 s'22 + n1 n2

∩ t ( m)

(14)

2

⎛ s '12 s '22 ⎞ ⎟ ⎜⎜ + n1 n2 ⎟⎠ ⎝ . com m = ⎛ s '12 ⎞ ⎛ s '22 ⎞ ⎜ n⎟ ⎜ n ⎟ 1⎠ 2⎠ ⎝ +⎝ n1 − 1 n2 − 1

Intervalo de confiança para µ1 − µ 2 : ⎡ s '12 s '22 s '12 s '22 ⎤ ( X X ) t , ( X X ) t − − + − + + ⎢ 1 ⎥ 2 1 2 n n n n2 ⎥⎦ 1 2 1 ⎣⎢

4º) Amostras independentes, populações normais ou não, σ 1 e σ 2 desconhecidos e amostras grandes ( n1 ≥ 30 ∧ n2 ≥ 30 )

85


I N F E R Ê N C I A

E S T A T Í S T I C A

ET =

( X 1 − X 2 ) − ( µ1 − µ 2 ) s'12 s '22 + n1 n2

D

∩ N (0,1)

(15)

Intervalo de confiança para µ1 − µ 2 : ⎡ s '12 s '22 s '12 s '22 ⎤ ( X X ) z , ( X X ) z − − + − + + ⎢ 1 ⎥ 2 1 2 n n n n2 ⎥⎦ 1 2 1 ⎣⎢

5º) Amostras dependentes/emparelhadas ( D = X 1 − X 2 ), amostras pequenas

ET =

D − µD ∩ t (n − 1) s'D n

(16)

s' s' ⎤ ⎡ Intervalo de confiança para µ D : ⎢ D − t D , D + t D ⎥ n n⎦ ⎣ Nota: Se n ≥ 30 a distribuição é aproximadamente normal.

5.5.5

Teste para a diferença de proporções de duas populações.

1º) Amostras grandes

ET =

( p1* − p2* ) − ( p1 − p2 ) D ∩ N (0,1) p1q1 p2 q2 + n1 n2

Intervalo de confiança para p1 − p2 : ⎡ * p1*q1* p2* q2* * p1*q1* p2* q2* ⎤ * * p p z , p p z − − + − − + ⎢ 1 ⎥ 2 1 2 n1 n2 n1 n2 ⎥⎦ ⎢⎣

5.5.6

Teste para o quociente de variâncias de duas populações

1º) Populações normais

86

(17)


I N F E R Ê N C I A

E S T A T Í S T I C A

s '12 ET =

s '22

σ 12

=

σ 22

σ 22 s'12 ∩ F (n1 − 1, n2 − 1) σ 12 s'22

Intervalo de confiança para

5.6

(18)

σ 12 ⎡ s '12 1 s'12 1 ⎤ , :⎢ ⎥. σ 22 ⎣⎢ s '22 Finf s'22 Fsup ⎦⎥

Erros associados a um teste de hipóteses

Quando realizamos um teste de hipóteses tomamos uma de duas decisões: rejeitar H 0 ou não rejeitar H 0 . Quando tomamos uma destas decisões podemos cometer um de dois erros: rejeitar H 0 e H 0 ser a hipótese verdadeira e não rejeitar H 0 e H 0 ser a hipótese falsa. O primeiro chama-se erro tipo I e o segundo erro tipo II. Decisão baseada na amostra

Situação real H 0 é verdadeira H 0 é falsa

Não rejeitar H 0

Decisão correcta

Erro tipo II

Rejeitar H 0

Erro tipo I

Decisão correcta

A probabilidade de cometermos o erro tipo I é o nível de significância do teste. Quando definimos à partida o nível de significância do teste estamos assim a quantificar a probabilidade que deixamos para a hipótese de cometermos este tipo de erro. Este valor nunca pode ser zero (as distribuições amostrais tomam valores tipicamente até + ∞ . Por outro lado, demonstra-se que quando diminuímos a probabilidade de erro tipo I ( α ) a probabilidade de cometermos o erro de tipo II ( β ) aumenta. Define-se como potência de um teste à probabilidade de não cometermos o erro de tipo II ( (1 − β ).

5.7

Teste de ajustamento do Qui-quadrado

Um teste de ajustamento, (chamado por vezes de teste da bondade do ajustamento) pretende saber se uma dada amostra pode ser considerada como proveniente de uma população, com distribuição caracterizada por uma dada função (densidade) de probabilidade teórica.

87


I N F E R Ê N C I A

E S T A T Í S T I C A

Dada uma amostra aleatória ( X 1 , X 2 ,..., X n ) , retirada de uma população X , e uma certa função (densidade) de probabilidade f 0 ( x) , o teste de ajustamento tem as seguintes hipóteses:

H 0 : a função (densidade) de probabilidade de X é f 0 ( x) H 1 : a função (densidade) de probabilidade de X não é f 0 ( x)

A ideia básica do teste do qui-quadrado é a seguinte: construa-se k classes A1 , A2 ,..., Ak , de valores assumidos por X , de forma a que estas classes constituam uma partição desses valores. Tome-se a amostra ( X 1 , X 2 ,..., X n ) e calculem-se as frequências absolutas observadas oi , de cada classe Ai . Assim,

oi = número de elementos da amostra que pertencem a Ai (frequências observadas). Considere-se a distribuição teórica definida em H 0 e calcule-se a probabilidade

pi de cada classe Ai .

pi = P( X ∈ Ai )

(19)

Assim, o número de elementos da amostra que deveriam estar em Ai seria

ei = n ⋅ pi .

ei = número de elementos da amostra pertencentes a Ai quando H 0 é verdadeira (frequências esperadas). Se a hipótese nula for de facto verdadeira, a diferença entre cada valor observado e o respectivo valor esperado não deve ser muito grande. O problema agora coloca-se em saber o que é um valor grande ou um valor pequeno. Temos de garantir que:

- as diferenças consideradas sejam positivas; - as diferenças sejam ponderadas; - a distribuição da estatística de teste utilizada seja conhecida. Kearl Pearson apresentou a seguinte estatística: k

(oi − ei )2

i =1

ei

ET = ∑

(20)

que, sendo verdadeira a hipótese nula, tem distribuição do qui-quadrado com k − m − 1 graus de liberdade, onde m é o número de parâmetros que foi 88


I N F E R Ê N C I A

E S T A T Í S T I C A

necessário estimar (utilizando a amostra) de modo que a distribuição da população definida por H 0 ficasse totalmente definida.

89


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.