1
Material de Apoio para as aulas de Estatística: ASPD Tatuapé (2º ano)
Regressão Linear 1. Introdução Nos capítulos anteriores, a descrição e a inferência estatística foram tratadas em termos de uma única variável. Assim, quando tínhamos uma amostra de empresas, considerávamos uma variável por vez, como, por exemplo, o faturamento. Entretanto, quando temos uma amostra de empresas, há várias variáveis que podem ser observadas em cada unidade amostrada: número de empregados, salários, área etc. No primeiro caso, cada unidade observada está associada com a medida de uma variável X; no segundo, cada unidade é associada com as medidas de várias variáveis, X, Y, W etc. No momento, vamos considerar o caso de duas variáveis (análise bivariada). Prioritariamente, a análise de regressão é usada com o propósito de previsão. Nosso objetivo é o de desenvolver um modelo estatístico que pode ser usado para prever valores de uma variável dependente (Y) em função de valores de uma variável (X), ou mais variáveis independentes. Suponhamos dispor de uma amostra de n unidades, e, ainda, que, para cada unidade, temos um par de valores das variáveis X e Y (por exemplo, idade da casa e aluguel). O grupo pode ser descrito, separadamente, quanto à variável X ou quanto variável Y, através das medidas já discutidas, tais como, médias e desvios padrões. No entanto, agora temos interesse em estabelecer uma possível relação funcional (matemática) entre as duas variáveis e, se a relação for boa, usá-la para fazer previsões. No caso do exemplo, nosso interesse será estabelecer uma relação matemática (linear) entre as idades das casas (X) e os valores de aluguéis (Y), e dessa maneira prever valores de aluguéis em função das idades das casas.
2. Diagrama de dispersão Para análise de regressão linear simples, é desejável a construção de um gráfico bidimensional denominado diagrama de dispersão. Cada valor é marcado em função das coordenadas de X e Y. Quando duas varáveis estão ligadas por uma relação estatística, dizemos que existe correlação entre elas. Exemplo: A tabela abaixo representa o número de anos de serviço por número de clientes de 5 agentes de uma companhia de seguros.
Agente A B C D E Total
Anos de Serviço 2 4 5 6 8 25
Número de clientes 48 56 64 60 72 300
É razoável dizermos que o número de clientes depende da quantidade de anos trabalhadas, ou seja, a variável independente é X = anos de serviço e a variável dependente é Y = número de clientes. O gráfico de dispersão é:
2
número de clientes
80 60 40 20 0 0
2
4
6
8
10
Anos de Serviço
3. Coeficiente de correlação linear (ou de Pearson) Um indicador da força de uma relação linear entre duas variáveis intervalares é o Coeficiente de Correlação do Produto de Momentos de Pearson, ou simplesmente Coeficiente de Pearson. Tratase de uma medida de associação que independe das unidades de medidas das variáveis. Varia entre –1 ou +1 ou, expresso em porcentagens, entre –100% e +100%. Quanto maior a qualidade do ajuste (ou associação linear), mais próximo de +1 ou –1 estará o valor do coeficiente r. A interpretação do Coeficiente de Correlação como medida da intensidade da relação linear entre duas variáveis é puramente matemática e está completamente isenta de qualquer implicação de causa e efeito. O fato de duas variáveis aumentarem ou diminuírem juntas não implica que uma delas tenha algum efeito direto, ou indireto, sobre a outra. Ambas podem ser influenciadas por outras variáveis de maneira que dê origem a uma forte correlação entre elas. Na prática, se r > 70% ou r < –70%, diremos que há forte correlação linear entre as variáveis. Para ilustrar, vamos analisar alguns diagramas de dispersão com a respectiva reta de regressão ajustada:
3
O cálculo do coeficiente de Pearson é dado pela fórmula:
r=
n x.y x y n x 2 x . n y2 y 2
2
onde n é o número de observações.
4. Ajustamento da Reta de Regressão pelo Método dos Mínimos Quadrados Precisamos determinar, com base em uma amostra, a equação de regressão linear simples que melhor se ajuste aos dados amostrais. Isto é, encontrarmos os coeficientes da reta:
y = ax + b onde: a é o coeficiente angular da reta; b é o coeficiente linear. O problema é determinar os valores dos parâmetros a e b, de modo que a reta se ajuste ao conjunto de pontos, isto é: estimar a e b de algum modo eficiente. Há vários métodos para encontrar as estimativas de tais parâmetros, sendo mais eficaz o Método dos Mínimos Quadrados conforme veremos a seguir.
4
5. O Modelo de Regressão Linear Nosso modelo é:
y = ax + b onde: a=
n x.y x y n x2 x
2
e b = y a.x
com: x =
x
y =
y
n n
(média de X) e (média de Y)
em que n é o número de observações. Vejamos um exemplo. Exemplo: A tabela abaixo apresenta valores que mostram como o comprimento de uma barra de aço varia conforme a temperatura: TEMPERATURA (ºC) COMPRIMENTO (mm)
10 1003
15 1005
20 1010
25 1011
30 1014
Determine: a) o coeficiente de correlação e a interpretação do valor obtido; b) a reta ajustada através do Método dos Mínimos Quadrados; c) o valor estimado do comprimento da barra para a temperatura de 18ºC; Resolução: Inicialmente, verificamos que a variável “controlada” é a temperatura, e que o comprimento varia em função da temperatura medida. Neste caso, a variável independente X é a temperatura; a variável dependente Y é o comprimento. Vamos refazer a tabela dada verticalmente e calcularemos as medidas necessárias para utilizarmos as fórmulas: Temperatura (ºC) Comprimento (mm) xy (x)2 (y)2 x y 10 1003 10 030 100 1 006 009 15 1005 15 075 225 1 010 025 20 1010 20 200 400 1 020 100 25 1011 25 275 625 1 022 121 30 1014 30 420 900 1 028 196 ∑ = 100 ∑ = 5043 ∑ = 101 000 ∑ = 2250 ∑ = 5 086 451
5
Observe a última linha da tabela: nela, já temos todos os elementos necessários para utilizarmos as fórmulas anteriormente apresentadas.
a) r =
r=
r=
n x.y x y n x 2 x . n y2 y 2
5
2
101 000 (100) (5043)
5 (2250) 100 . 5 (5 086 451) 5043 2
700 = 1250 406
2
700 0,9826 507 500
Interpretação: a temperatura explica aproximadamente 98% da variabilidade do comprimento da barra de aço. b) a =
x =
n x.y x y n x2 x
x n
=
2
=
700 = 0,56 1250
100 = 20 5
y
y =
n
=
5043 = 1008,6 5
b = y a x = 1008,6 – 0,56 20 = 997,4 Logo, o nosso modelo é: y = 0,56x + 997,4. c) A partir do modelo y = 0,56x + 997,4, queremos estimar o valor do comprimento da barra de aço para x = 18°C. Logo: y = 0,56x + 997,4 = 0,56 18 + 997,4 = 1007,48 mm.
Exercícios 1) Um grupo de pessoas fez uma avaliação do peso aparente de alguns objetos. Com o peso real e a média dos pesos aparentes, dados pelo grupo, obteve-se a tabela: Peso real (kg) Peso aparente (kg)
18 10
30 23
42 33
62 60
73 91
97 98
120 159
Calcule o índice de correlação. 2) Considere os resultados de dois testes, X e Y, obtidos por um grupo de alunos da escola A: xi yi
11 13
14 14
19 18
19 15
22 22
28 17
30 24
a) Verifique, pelo diagrama, se existe correlação retilínea. b) Em caso afirmativo, calcule o coeficiente de correlação.
31 22
34 24
37 25
6
3) A tabela abaixo apresenta a produção de uma indústria: Anos Quantidades (t)
1980 34
1981 36
1982 36
1983 38
1984 41
1985 42
1986 43
1987 44
1988 46
Calcule: a) o coeficiente de correlação; (Sugestão: Para simplificar os cálculos, use para o tempo uma variável auxiliar, por exemplo: x' = x 1979 ) b) a reta ajustada; c) a produção estimada para 1989. 4) A variação do valor da UPC, relativamente a alguns meses de 2009, deu origem à tabela: MESES VALORES R$
mai. 10,32
jun. 10,32
jul. 11,34
ago. 11,34
set. 11,34
out. 12,22
nov. 12,22
a) Calcule o grau de correlação. b) Estabeleça a equação de regressão de Y em função de X. c) Estime o valor da UPC para o mês de dezembro. Sugestão: Substitua os meses, respectivamente, por 1, 2, ...., 7. 5) Certa empresa, estudando a variação da demanda de seu produto em relação à variação de preço de venda, obteve a tabela: PREÇO (xi) DEMANDA (yi)
38 350
42 325
50 297
56 270
59 256
63 246
70 238
80 223
95 215
110 208
a) Determine o coeficiente de correlação. b) Estabeleça a equação da reta ajustada. c) Estime Y para X = 60 e X = 120. 6) Pretendendo-se estudar a relação entre as variáveis “consumo de energia elétrica” (x) e “volume de produção nas empresas industriais” (y), fez-se uma amostragem que inclui vinte empresas, computando-se os seguintes valores:
x
11,34,
y
20,72,
x
2
12,16,
Determine: a) o cálculo do coeficiente de correlação b) a equação de regressão de Y em função de X
y
2
84,96 e
x.y
22,13
7
Respostas: 1) r = 0,98 2) a) sim
b) r = 0,89
3) a) r = 0,9891 b) y = 1,5x + 40 c) 47,5 4) a) r = 0,94 b) y = 0,34x + 9,94 c) 12,66 5) a) r = â&#x20AC;&#x201C;0,90 b) y = 1,87x + 386,78 c) Para x = 60, y = 275 Para x = 120, y = 162 6) a) r = 0,5443 b) y = 1,81x + 0,0097