ANÁLISE DE MODELOS DE REGRESSÃO LINEAR COM APLICAÇÕES
UNIVERSIDADE E STADUAL JOSÉ
DE
CAMPINAS
Reitor TADEU JORGE
Coordenador Geral da Universidade FERNANDO FERREIRA COSTA
Conselho Editorial Presidente PAULO F RANCHETTI A LCIR P ÉCORA – ARLEY R AMOS M ORENO E DUARDO D ELGADO A SSAD – J OSÉ A. R. G ONTIJO J OSÉ R OBERTO Z AN – M ARCELO K NOBEL S EDI H IRANO – Y ARO BURIAN J UNIOR
ANÁLISE DE MODELOS DE REGRESSÃO LINEAR COM APLICAÇÕES
Clarice Azevedo De Luna Freire Departamento de Estatística (UFPR)
Eugênia M. Reginato Charnet Departamento de Estatística (UNICAMP)
Heloísa Bonvino Departamento de Estatística (UNICAMP)
Reinaldo Charnet Departamento de Estatística (UNICAMP)
2 a EDIÇÃO
FICHA CATALOGRÁFICA ELABORADA PELO S I S T E M A DE B I B L I O T E C A S D A U N I C A M P DIRETORIA DE TRATAMENTO DA INFORMAÇÃO
An13
Análise de modelos de regressão linear: com aplicações / Reinaldo Charnet et al. – 2a ed. – Campinas, SP: Editora da UNICAMP, 2008. 1. Análise de regressão. 2. Estatística matemática. I. Charnet, Reinaldo. II. Título. CDD
519.536 519.532
ISBN 978-85-268-0780-8 Índices para catálogo sistemático: 1. Análise de regressão 2. Estatística matemática
519.536 519.532
Copyright © by Reinaldo Charnet et al. Copyright © 2008 by Editora da UNICAMP
1a edição, 1999
Nenhuma parte desta publicação pode ser gravada, armazenada em sistema eletrônico, fotocopiada, reproduzida por meios mecânicos ou outros quaisquer sem autorização prévia do editor.
Editora da U NICAMP Rua Caio Graco Prado, 50 – Campus UNICAMP Caixa Postal 6074 – Barão Geraldo CEP 13083-892 – Campinas – SP – Brasil Tel./Fax: (19) 3521-7718/7728 www.editora.unicamp.br – vendas@editora.unicamp.br
Sum´ ario
Introdu¸c˜ ao
1
1 O Modelo de Regress˜ ao Linear Simples
5
1.1 Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2 Uma vari´avel auxiliar . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.3 O modelo de regress˜ao linear simples − MRLS . . . . . . . . . . . . 11 1.4 O MRLS em forma matricial . . . . . . . . . . . . . . . . . . . . . . 16 1.5 An´alise de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2 Ajuste de Reta por Quadrados M´ınimos
27
2.1 A f´ormula da reta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.2 O m´etodo de quadrados m´ınimos . . . . . . . . . . . . . . . . . . . 28 2.3 Resultados u ´teis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4 Propriedades do ajuste de quadrados m´ınimos . . . . . . . . . . . . 40 2.5 Pontos influentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 i
´ SUMARIO
ii 3 Estima¸c˜ ao do MRLS
51
3.1 Estimadores de quadrados m´ınimos para o MRLS . . . . . . . . . . 52 3.2 Qual a escolha: modelo simples ou MRLS? . . . . . . . . . . . . . . 58 3.3 An´alise de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4 Amostra Bivariada e o MRLS
69
4.1 Coeficiente de correla¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . 70 4.2 Amostra de normal bivariada . . . . . . . . . . . . . . . . . . . . . 75 4.3 Estima¸c˜ao no modelo normal bivariado . . . . . . . . . . . . . . . . 77 4.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5 Adequa¸c˜ ao e Predi¸c˜ ao sob o MRLS
87
5.1 Coeficiente de determina¸c˜ao − R2 . . . . . . . . . . . . . . . . . . . 88 5.2 Teste da falta de ajuste do MRLS . . . . . . . . . . . . . . . . . . . 90 5.3 Intervalos de confian¸ca . . . . . . . . . . . . . . . . . . . . . . . . . 99 5.4 Intervalos de predi¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.5 An´alise de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 6 An´ alise de Res´ıduos
115
6.1 Propriedade dos res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2 An´alise gr´afica dos res´ıduos . . . . . . . . . . . . . . . . . . . . . . 123 6.3 Algumas transforma¸c˜oes usuais . . . . . . . . . . . . . . . . . . . . 132
´ SUMARIO
iii
6.4 An´alise de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 6.5 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 7 Comparando Dois Modelos (MRLS)
147
7.1 Formula¸c˜ao de dois MRLS’s . . . . . . . . . . . . . . . . . . . . . . 148 7.2 Testes para compara¸c˜ao de dois MRLS’s . . . . . . . . . . . . . . . 150 7.3 An´alise de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 7.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 8 O Modelo de Regress˜ ao Linear M´ ultipla
169
8.1 Introdu¸c˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8.2 MRLM em forma matricial . . . . . . . . . . . . . . . . . . . . . . . 172 8.3 O m´etodo de quadrados m´ınimos geral . . . . . . . . . . . . . . . . 175 8.4 Estimadores de quadrados m´ınimos . . . . . . . . . . . . . . . . . . 177 8.5 Qual a escolha: modelo simples ou MRLM? . . . . . . . . . . . . . 182 8.6 Testes para os parˆametros: escolha entre modelos . . . . . . . . . . 185 8.7 Falta de ajuste do MRLM . . . . . . . . . . . . . . . . . . . . . . . 193 8.8 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 9 Correla¸c˜ oes M´ ultiplas e Parciais
201
9.1 Distribui¸c˜ao normal multivariada . . . . . . . . . . . . . . . . . . . 202 9.2 O coeficiente de determina¸c˜ao e o MRLM . . . . . . . . . . . . . . . 207 9.3 Coeficientes de correla¸c˜ao parciais e o MRLM . . . . . . . . . . . . 219 9.4 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
´ SUMARIO
iv 10 Vari´ aveis Fict´ıcias e An´ alise de Covariˆ ancia
235
10.1 Vari´aveis fict´ıcias . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 10.2 An´alise de covariˆancia . . . . . . . . . . . . . . . . . . . . . . . . . 248 10.3 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 11 Sele¸ c˜ ao de Vari´ aveis Regressoras 11.1 Introdu¸c˜ao
259
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
11.2 Todas as regress˜oes poss´ıveis . . . . . . . . . . . . . . . . . . . . . . 260 11.3 M´etodo “passo atr´as” (backward) . . . . . . . . . . . . . . . . . . . 264 11.4 M´etodo “passo a frente”(forward) . . . . . . . . . . . . . . . . . . 267 11.5 M´etodo “passo a passo” (stepwise) . . . . . . . . . . . . . . . . . . 270 11.6 Exerc´ıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 12 An´ alise de Res´ıduos e Regress˜ ao Ponderada
275
12.1 Res´ıduos do ajuste de MRLM . . . . . . . . . . . . . . . . . . . . . 276 12.2 Estat´ısticas de diagn´osticos
. . . . . . . . . . . . . . . . . . . . . . 281
12.3 Gr´aficos de res´ıduos . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 12.4 Regress˜ao ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . 293 12.5 An´alise de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 Apˆ endices
303
A Estimadores de M´ axima Verossimilhan¸ca
305
´ B Algebra Linear
307
´ SUMARIO
v
C Distribui¸c˜ ao Normal
317
D Conjunto de Dados de Meninas Dan¸ carinas
325
E Tabelas
331
E.1 Tabela de Distribui¸c˜ao Normal(0 ; 1) . . . . . . . . . . . . . . . . . 332 E.2 Tabela de Distribui¸c˜ao t de Student . . . . . . . . . . . . . . . . . . 334 E.3 Tabela de Distribui¸c˜ao Qui-quadrado . . . . . . . . . . . . . . . . . 336 E.4 Tabela de Distribui¸c˜ao F . . . . . . . . . . . . . . . . . . . . . . . . 338 Respostas de Exerc´ıcios Selecionados
345
Referˆ encias Bibliogr´ aficas
349
´Indice Remissivo
351
Sobre os Autores
355
Introdu¸ c˜ ao Nas u ´ltimas d´ecadas tem crescido consideravelmente o interesse pela Estat´ıstica ´ ineg´avel a importˆancia da metodologia nas mais diversas ´areas de conhecimento. E estat´ıstica como ferramenta imprescind´ıvel `a an´alise e confirma¸c˜ao de hip´oteses. No entanto, se por um lado percebemos esse crescente interesse pelos m´etodos estat´ısticos, o mesmo n˜ao ocorre com a produ¸c˜ao de livros-texto, que nesta ´area tem sido bastante modesta. A falta de material did´atico voltado para as aplica¸c˜oes de metodologias dificulta a aprendizagem daqueles interessados na sua utiliza¸c˜ao. Este fato foi a grande motiva¸c˜ao para a produ¸c˜ao deste texto, que tem por objetivo apresentar a parte da Estat´ıstica que trata de modelos de regress˜ao, resultando em um material que facilite a aprendizagem e principalmente as aplica¸c˜oes dos modelos de regress˜ao. O p´ ublico a que se destina esta obra ´e bastante diversificado. Os t´opicos s˜ao aqui abordados de forma que o leitor com alguma familiaridade com estima¸c˜ao e testes de hip´oteses − geralmente abordados em cursos introdut´orios de Estat´ıstica − est´a suficientemente preparado para entender os conceitos e aplica¸c˜oes aqui desenvolvidas, sem maiores dificuldades. A inten¸c˜ao ´e de que este livro possa ser utilizado como texto b´asico para disciplinas de regress˜ao, tanto para alunos de gradua¸c˜ao em estat´ıstica como para alunos de diferentes ´areas para os quais usualmente s˜ao oferecidas. Os cap´ıtulos est˜ao organizados de forma que seja poss´ıvel abord´a-los em uma disciplina de 60 horas. O modelo de regress˜ao linear simples e o m´etodo de quadrados m´ınimos s˜ao definidos, respectivamente, nos Cap´ıtulos 1 e 2 e a estima¸c˜ao de parˆametros dos modelos ´e discutida no Cap´ıtulo 3. Nestes cap´ıtulos s˜ao tamb´em destacados alguns t´opicos bastante importantes como a discuss˜ao sobre pontos influentes − no 1
2
˜ INTRODUC ¸ AO
Cap´ıtulo 2 − assunto este retomado nos Cap´ıtulos 6 e 12, quando s˜ao discutidas algumas estat´ısticas utilizadas no diagn´ostico desses pontos influentes bem como a forma de sua utiliza¸c˜ao. Ainda no Cap´ıtulo 3, a quest˜ao da escolha entre o modelo simples e o modelo de regress˜ao linear simples ´e cuidadosamente discutida, visando a compreens˜ao do leitor para a importˆancia da aplica¸c˜ao dos m´etodos de regress˜ao. No Cap´ıtulo 4 revisitamos o modelo Normal Bivariado e sua estima¸c˜ao e no Cap´ıtulo 5 trabalhamos com adequa¸c˜ao dos modelos de regress˜ao linear simples. Destacamos no Cap´ıtulo 6 a importˆancia da an´alise dos res´ıduos na verifica¸c˜ao das suposi¸c˜oes dos modelos, apresentando propriedades e an´alises gr´aficas desses res´ıduos. Esta discuss˜ao ´e retomada no Cap´ıtulo 12, considerando os modelos de regress˜ao m´ ultipla. No Cap´ıtulo 7 analisamos o problema do ajuste de modelos para dados que constituem grupos distintos de observa¸c˜oes, estudo que prepara para a utiliza¸c˜ao de modelos de regress˜ao linear m´ ultipla. Os Cap´ıtulos 9 a 13 tratam dos modelos de regress˜ao m´ ultipla. No Cap´ıtulo 8 esses modelos s˜ao introduzidos tamb´em na forma matricial e no Cap´ıtulo 9 s˜ao discutidas correla¸c˜oes m´ ultiplas e parciais. As chamadas vari´aveis fict´ıcias s˜ao abordadas no Cap´ıtulo 10 e as quest˜oes relacionadas com a sele¸c˜ao de vari´aveis regressoras s˜ao tratadas no Cap´ıtulo 11, onde apresentamos os m´etodos usuais utilizados para esse fim. Finalmente, no Cap´ıtulo 12 discutimos a regress˜ao ponderada. Em todos os cap´ıtulos a ˆenfase ´e dada `as aplica¸c˜oes. Esta ˆenfase em parte resulta da experiˆencia did´atica dos autores ao longo de v´arios anos ministrando cursos seja para alunos do curso de gradua¸c˜ao em Estat´ıstica seja para alunos de outras ´areas. Sempre que poss´ıvel, um conjunto de dados reais ´e analisado para ilustrar conceitos e a metodologia discutida. Al´em disso, no final de cada cap´ıtulo s˜ao propostos exerc´ıcios envolvendo os t´opicos apresentados que servem de est´ımulo ao aluno para a aplica¸c˜ao e fixa¸c˜ao de todo o material exposto. Os Apˆendices inclu´ıdos no final do livro completam o material necess´ario para a compreens˜ao de alguns t´opicos. No Apˆendice A, por exemplo, os estimadores de m´axima verossimilhan¸ca s˜ao revistos e o Apˆendice B apresenta uma revis˜ao de ´algebra linear, necess´aria para o tratamento dos modelos na forma matricial. A distribui¸c˜ao normal e suas propriedades s˜ao revistas no Apˆendice C. Um dos conjuntos de dados extensivamente trabalhado em v´arios cap´ıtulos est´a descrito no Apˆendice D. Finalmente o Apˆendice E cont´em as tabelas das distribui¸c˜oes utilizadas ao longo do texto.
˜ INTRODUC ¸ AO
3
Com este trabalho esperamos contribuir para o aprendizado de todos aqueles que, no decorrer de suas carreiras, necessitam utilizar os m´etodos de an´alise de regress˜ao para o estudo de fenˆomenos ligados `a sua ´area de conhecimento. O texto produzido foi enriquecido devido `a inclus˜ao de alguns conjuntos de dados reais. Trata-se de simplifica¸c˜oes de conjuntos oriundos de pesquisas em ´areas diversas. Agradecemos `a Profa. Dra. Maria da Consola¸c˜ao Tavares, FEF−Unicamp, pelo “conjunto de dados de dan¸carinas”, que utilizamos em v´arios cap´ıtulos. Este conjunto ´e parte da pesquisa “Determina¸c˜ao da varia¸c˜ao de rota¸c˜ao externa dos quadris e da angula¸c˜ao dos p´es em crian¸cas dan¸carinas”, a ser publicada. Agradecemos `a pesquisadora da Embrapa, Aline de Holanda Maia, por informa¸c˜oes sobre v´arias pesquisas. O “conjunto de dados de girassois” ´e parte integrante da pesquisa “Estimativa de perda, comportamento e efeito no meio ambiente da aplica¸c˜ao a´erea de herbicidas em arroz irrigado”, projeto de n´ umero 11.0.94.224 da Embrapa Meio Ambiente, do pesquisador Aldemir Chaim. Agradecemos `a Profa. Suely Ruiz Giolo, DE−UFPR, pelo “conjunto de dados de tomografia”, parte do Relat´orio de An´alise Estat´ıstica de n´ umero 49/97, do Laborat´orio de Estat´ıstica−UFPR. Agradecemos ao Prof. Dr. Jonathan Biele, DE−UFPR, pela contribui¸c˜ao na elabora¸c˜ao deste livro-texto, com muitas sugest˜oes sobre a teoria e desenvolvimento de programa¸c˜ao em S-Plus para a constru¸c˜ao de v´arias ilustra¸c˜oes gr´aficas e elabora¸c˜ao de tabelas de distribui¸c˜oes de probabilidades. Finalmente, agradecemos a Jos´e Em´ılio Maiorino do IMECC pelas sugest˜oes e dedicado trabalho na elabora¸c˜ao da parte gr´afica deste livro.
Cap´ıtulo 1 O Modelo de Regress˜ ao Linear Simples Este cap´ıtulo enfoca um modelo estat´ıstico que descreve a rela¸c˜ao mais simples entre duas vari´aveis − uma linha reta. Trata-se do modelo estat´ıstico de regress˜ao linear simples. Se¸c˜ ao 1.1 Conduzimos, inicialmente, uma breve revis˜ao em probabilidade e inferˆencia estat´ıstica, sob o modelo normal. Se¸c˜ ao 1.2 Abordamos a transi¸c˜ao do estudo de uma vari´avel aleat´oria, usando apenas o seu pr´oprio modelo de probabilidade para a an´alise, com o apoio de uma outra vari´avel denominada auxiliar. Quais as vantagens? Se¸c˜ ao 1.3 Apresentamos, formalmente, o modelo estat´ıstico de regress˜ao linear simples. Uma simula¸c˜ao ´e desenvolvida para deixar bem claras as suposi¸c˜oes do modelo. Se¸c˜ ao 1.4 Expressamos o modelo de regress˜ao linear simples amostral com nota¸c˜ao matricial. Se¸c˜ ao 1.5 Analisamos um conjunto de dados de medidas de ˆangulos de rota¸c˜ao dos p´es de meninas dan¸carinas. Se¸c˜ ao 1.6 Apresentamos exerc´ıcios sobre os t´opicos abordados.
5
6
1.1
˜ LINEAR SIMPLES CAP´ITULO 1. O MODELO DE REGRESSAO
Introdu¸ c˜ ao
Iniciamos com o estudo de uma vari´avel aleat´oria normal. Aproveitamos para revisar alguns aspectos da distribui¸cËœao de probabilidade normal que ser´a muito utilizada. Faremos em seguida a transi¸cËœao para um estudo com o apoio de uma outra vari´avel denominada auxiliar. Seja Y uma vari´avel aleat´oria de interesse. Podemos usar a esperan¸ca de Y, Âľ, e a variˆancia de Y, Ďƒy2, para descrever de maneira resumida a sua natureza. A esperan¸ca ´e uma medida de tendˆencia central e a variˆancia ´e uma medida da dispersËœao em torno da esperan¸ca. Podemos expressar a vari´avel Y como uma soma: Âľ + , onde ´e uma vari´avel aleat´oria com esperan¸ca igual a zero e variˆancia igual `a variˆancia de Y, Ďƒy2. Assim, representa os in´ umeros fatores que, conjuntamente, fazem as observa¸cËœoes de Y oscilarem em torno de Âľ. Este modo de expressËœao de Y ser´a chamado de modelo simples.
Modelo simples Y=Âľ + Âľ:
constante
E[ ] = 0 Var[ ] = Ďƒy2
No caso particular de Y ter distribui¸cËœao normal, a esperan¸ca e a variˆancia sËœao os u ´nicos parˆametros necess´arios para a defini¸cËœao completa do modelo de probabilidade. Usaremos a nota¸cËœao N(Âľ ; Ďƒy2) para a distribui¸cËœao normal, com esperan¸ca igual a Âľ e variˆancia igual a Ďƒy2 . Neste caso temos o modelo simples com a suposi¸cËœao de distribui¸cËœao normal para a vari´avel aleat´oria , destacado a seguir.
˜ 1.1. INTRODUC ¸ AO
7
Modelo simples normal Y=Âľ + Âľ:
constante
âˆź N(0 ; Ďƒy2)
Uma propriedade do modelo normal ´e que, se expressamos um evento em fun¸cË&#x153;ao da esperan¸ca e da variË&#x2020;ancia, a probabilidade deste evento independe dos valores espec´Ĺficos da esperan¸ca e da variË&#x2020;ancia. Por exemplo: Prob {Âľ â&#x2C6;&#x2019; Ď&#x192;y < Y < Âľ + Ď&#x192;y } = 0, 68 e Prob {Âľ â&#x2C6;&#x2019; 2Ď&#x192;y < Y < Âľ + 2Ď&#x192;y } = 0, 95. Dada uma amostra aleat´oria de observa¸cË&#x153;oes de Y, y1, ..., yn , estimadores nË&#x153;ao viciados de Âľ e Ď&#x192;y2, ou seja, as esperan¸cas desses estimadores sË&#x153;ao iguais aos parË&#x2020;ametros a serem estimados, sË&#x153;ao definidos, respectivamente, por n 1X yi n i=1
y = e S2 =
n 1 X (yi â&#x2C6;&#x2019; y)2 . n â&#x2C6;&#x2019; 1 i=1
(1.1)
(1.2)
Se essa amostra aleat´oria ´e de modelo N(Âľ ; Ď&#x192;y2 ), temos Ď&#x192;y2 y â&#x2C6;ź N Âľ; n
!
e
nâ&#x2C6;&#x2019;1 2 S â&#x2C6;ź Ď&#x2021;2(nâ&#x2C6;&#x2019;1), 2 Ď&#x192;y
sendo que Ď&#x2021;2(nâ&#x2C6;&#x2019;1) representa a distribui¸cË&#x153;ao Qui-Quadrado com (n â&#x2C6;&#x2019; 1) graus de liberdade e, com base nessas distribui¸cË&#x153;oes, obtemos intervalos de confian¸ca para Âľ e Ď&#x192;y2, respectivamente, h
e
â&#x2C6;&#x161; â&#x2C6;&#x161; i y â&#x2C6;&#x2019; t( Îą2 ,nâ&#x2C6;&#x2019;1) S/ n ; y + t( Îą2 ,nâ&#x2C6;&#x2019;1) S/ n
(1.3)
8
˜ LINEAR SIMPLES CAP´ITULO 1. O MODELO DE REGRESSAO
(n − 1)S 2 (n − 1)S 2 ; , χ2(α ,n−1) χ2(1− α ,n−1) 2
(1.4)
2
onde t(α,n−1) ´e o quantil (1 − α) de distribui¸c˜ao t de Student com n graus de liberdade (α < 0, 5) e χ2(α,n−1) ´e o quantil (1 − α) de distribui¸c˜ao χ2 com n graus de liberdade. Exemplo 1.1 O peso de meninas de 7 a 11 anos de uma certa comunidade ´e a vari´avel aleat´oria de interesse. Suponha que esta vari´avel seja normal com m´edia 35 kg e variˆancia 100 kg2. Assim, num sorteio, onde cada menina tenha a mesma chance de ser escolhida, com probabilidade 0,68, observamos um peso na faixa [25 ; 45]. Por outro ˆangulo, podemos dizer que aproximadamente 68% das meninas tˆem pesos neste intervalo. A Figura 1.1 ilustra este modelo de probabilidade.
10
20
30
40
50
60
Figura 1.1: Peso de meninas − a probalilidade de uma menina pesar de 25 kg a 45 kg.
´ 1.2. UMA VARIAVEL AUXILIAR
1.2
9
Uma vari´ avel auxiliar
Consideremos, agora, a existˆencia de uma outra vari´avel, X, com alguma rela¸c˜ao com a vari´avel Y, o que sugere uma maneira alternativa de estudar Y, tendo como base informa¸c˜oes sobre X. Agora, as quantidades que descrevem Y s˜ao esperanc¸as e variˆancias condicionadas a valores espec´ıficos de X, denotadas por E[Y|x] e Var[Y|x], onde “x”´e um valor particular de X. Dada uma forte associa¸c˜ao entre X e Y, talvez os valores de E[Y|x] sigam um padr˜ao e os valores de Var[Y|x] sejam menores do que Var[Y]. Se isso ocorre, a vari´avel X ´e denominada vari´avel auxiliar. A Figura 1.2 apresenta amostras de pares de valores de vari´aveis X e Y, para trˆes configura¸c˜oes. Na situa¸c˜ao a n˜ao h´a rela¸c˜ao entre as vari´aveis. Nas situa¸c˜oes b e c nota-se rela¸c˜ao entre as vari´aveis, sendo mais acentuada em c. Observe que nas situa¸c˜oes b e c podemos destacar pequenos intervalos disjuntos no eixo de X, tal que os correspondentes valores de Y sejam observados em intervalos tamb´em disjuntos, em menor dispers˜ao.
Figura 1.2: Amostras de (X,Y) (a) Y n˜ao relacionado a X, (b) e (c) Y relacionado a X.
10
˜ LINEAR SIMPLES CAP´ITULO 1. O MODELO DE REGRESSAO Exemplo 1.2 No Exemplo 1.1 supomos que o peso de meninas, de 7 a 11 anos, de uma certa comunidade ´e normal com esperan¸ca 35 kg e variˆancia 100 kg2 . Vamos usar o fato de que a altura ´e altamente relacionada ao peso. Assim, o peso de meninas de determinada altura est´a mais concentrado em uma faixa espec´ıfica. Vamos supor que o peso, vinculado `a altura, seja normal com esperan¸ca dependendo do valor da altura e com variˆancia 36 kg2. Por exemplo, esperan¸cas 30 kg, 36 kg e 40 kg, correspondentes `as alturas 1,35 m, 1,40 m e 1,50 m. Temos os seguintes resultados: Altura (m) 1,35 1,40 1,50
faixa de pesos (kg) com probabilidade 0,68 [24 ; 36] [30 ; 42] [34 ; 46]
faixa de pesos (kg) com probabilidade 0,95 [18 ; 42] [24 ; 48] [28 ; 52]
Comparando os intervalos de probabilidade 0,68 com os valores apresentados no Exemplo 1.1, vemos que agora h´a mais precis˜ao: intervalos espec´ıficos e mais concentrados. A Figura 1.3 ilustra estes modelos de probabilidade.
10
20
30
40
50
60
Figura 1.3: Distribui¸c˜ao do peso de meninas − a densidade mais dispersa ´e a densidade de pesos em geral; a densidade mais concentrada ´e a densidade de pesos de meninas com 1,35 m de altura.