Issuu

ESTATISTICA DECODIFICADA

AndersonRodrigodaSilva

Estatísticadecodificada

Estatística decodificada

Editora Edgard Blücher Ltda.

Publisher Edgard Blücher

Editor Eduardo Blücher

Coordenação editorial Jonatas Eliakim

Produção editorial Ariana Corrêa

Revisão de texto Maurício Katayama

Capa Leandro Cunha

Imagem da capa David Neri, Anderson Rodrigo da Silva

Rua Pedroso Alvarenga, 1245, 4º andar 04531-012 Săo Paulo – SP – Brasil Tel.: 55 11 3078-5366 contato@blucher.com.br www.blucher.com.br

Segundo o Novo Acordo Ortográfico, conforme 6. ed. do Vocabulário Ortográfico da Língua Portuguesa, Academia Brasileira de Letras, julho de 2021.

É proibida a reproduçăo total ou parcial por quaisquer meios, sem autorizaçăo escrita da Editora.

Edgard Blücher Ltda.

Dados Internacionais de Catalogação na Publicação (CIP) Angélica Ilacqua CRB-8/7057

Silva, Anderson Rodrigo da Estatística decodificada / Anderson Rodrigo da Silva. - São Paulo : Blucher, 2023. 418 p. : il.

Bibliografia ISBN 978-65-5506-357-8

1. Estatística I. Título

22-6934

1. Estatística

Índice para catálogo sistemático:

CDD 310

Conteúdo I FundamentosdeEstatística 1 1Introduçãoàprobabilidade 3 1.1Noçõesdeconjuntos .......................... 3 1.2Definiçõesfundamentais ........................ 5 1.3Conceitosdeprobabilidade 7 1.4Teoremasbásicos ............................ 10 1.5Probabilidadecondicionaleindependênciaestocástica ....... 11 1.6Exercícios ................................ 14 2Variáveisaleatórias 19 2.1Variávelaleatóriadiscreta ....................... 20 2.2Variávelaleatóriacontínua 21 2.3Funçãodedistribuiçãoacumulada .................. 24 2.4Funçãodequantis ........................... 25 2.5Distribuiçãoconjunta ......................... 27 2.6Propriedadesdeesperança 29 2.7 Jupyternotebook ............................ 31 2.8Exercícios ................................ 31 3Distribuiçõesdeprobabilidade 35 3.1Modelosdiscretos ............................ 36 3.2Modeloscontínuos ........................... 43 3.3Famíliaexponencialdedistribuições 50 3.4Distribuiçãonormalmultivariada ................... 55 3.5Distribuiçãoempírica .......................... 56 3.6Resultadosúteis 59 3.7 Jupyternotebook ............................ 61

xii Estatísticadecodificada 3.8Exercícios 61 4Aplicaçõesdaverossimilhança 65 4.1Métododamáximaverossimilhança ................. 66 4.2AICeescolhadomodelo ........................ 73 4.3Testedarazãodeverossimilhanças .................. 75 4.4Otesteescore .............................. 78 4.5OtestedeWald ............................ 80 4.6Verossimilhançaemregressão ..................... 82 4.7Verossimilhançarestrita ........................ 83 4.8Outrasfunçõesdeverossimilhança .................. 87 4.9 Jupyternotebook ............................ 88 4.10Exercícios 88 5Ométododelta 91 5.1Definição ................................ 91 5.2Exemplosdeaplicação ......................... 92 5.3 Jupyternotebook ............................ 96 5.4Exercício ................................ 97 6Obootstrap 99 6.1Definição ................................ 100 6.2Exemplosdeaplicação ......................... 101 6.3 Jupyternotebook ............................ 103 II MétodoseModelos 105 7Conjuntosdedados 109 8Importaçãoeexportaçãodedadosno R 121 8.1Importaçãodedados .......................... 121 8.2Exportaçãodedados .......................... 123 8.3 Jupyternotebook ............................ 124 8.4Exercícios ................................ 124 9Análiseexploratóriadedados 127 9.1Distribuiçãodefrequências 127 9.2Estatísticasdescritivas 130 9.3 Boxplot ................................. 136

Conteúdo xiii 9.4 Jupyternotebook 138 9.5Exercícios 138 10Introduçãoaostestesdehipóteses 141 10.1Exemplodeintrodução ......................... 141 10.2Testetparaumamédia ........................ 144 10.3Testestparaduasmédias ....................... 148 10.4Testetparadadospareados 151 10.5Testessobretabelasdecontingência 154 10.6Intervalosdeconfiança ......................... 160 10.7 Jupyternotebook ............................ 163 10.8Exercícios ................................ 163 11Covariânciaecorrelação 167 11.1CovariânciaecorrelaçãodePearson 167 11.2Diagramasdedispersão 169 11.3Testedacorrelação ........................... 170 11.4Correlaçõesnãoparamétricas ..................... 171 11.5Gráficode draftsman .......................... 171 11.6Matrizesdecovariânciaecorrelação ................. 172 11.7Representaçãográficadematrizesdecorrelação ........... 173 11.8Inferênciaemmatrizesdecorrelação ................. 174 11.9Correlaçõesparciais 180 11.10Jupyternotebook 182 11.11Exercícios ................................ 182 12Regressão 185 12.1Regressãolinearsimples ........................ 185 12.2Regressãolinearmúltipla ....................... 194 12.3Regressãonãolinear 203 12.4 LinearResponsePlateau 208 12.5Bootstrapnaregressão ......................... 210 12.6 Jupyternotebook ............................ 213 12.7Exercícios ................................ 214 13Análisederesíduos 217 13.1Resíduosordinários 217 13.2Resíduospadronizados 219 13.3Resíduosestudentizados ........................ 219

xiv Estatísticadecodificada 13.4Medidasdeinfluência 220 13.5Análisegráfica 221 13.6 Jupyternotebook ............................ 224 14Análisedevariância 227 14.1 Nutsandbolts .............................. 227 14.2 One-wayANOVA ............................ 230 14.3Testedehomocedasticidade 236 14.4 Two-wayANOVA 237 14.5Otestedaaditividade ......................... 239 14.6Aprecisãoexperimental:CV vs. IV ................. 240 14.7Outrostiposdedecomposição ..................... 245 14.8Comparaçãodemodelosencaixados ................. 252 14.9 Jupyternotebook ............................ 255 14.10Exercícios 255 15Comparaçõesmúltiplasdemédias 257 15.1Teste t paracontrastes ......................... 258 15.2TesteLSDdeFisher .......................... 261 15.3AcorreçãodeBonferroni ........................ 264 15.4TesteHSDdeTukey .......................... 265 15.5TesteSNK ................................ 267 15.6OcritériodeScott-Knott 269 15.7Errodafamília 269 15.8Escolhendooteste ........................... 271 15.9 Jupyternotebook ............................ 272 15.10Exercícios ................................ 272 16Análisedecovariância 275 16.1Exemplodeaplicação 275 16.2Experimentodeparcelaspareadas 278 16.3 Jupyternotebook ............................ 280 16.4Exercício ................................ 280 17Experimentosmultifatores 281 17.1Estruturasdosfatores,tiposdeefeitoeinteração .......... 281 17.2Experimentosfatoriais 283 17.3Fatoriaiscomtratamentosadicionais 290 17.4Experimentos splitplot ......................... 292

Conteúdo xv 17.5Modelodefatoreshierárquicos 298 17.6 Jupyternotebook 300 17.7Exercícios ................................ 300 18Gruposdeexperimentos 303 18.1Critériosdeagrupamento ....................... 304 18.2Modeloestatístico ........................... 305 18.3Exemplodeaplicação ......................... 308 18.4 Jupyternotebook ............................ 310 18.5Exercícios ................................ 310 19Modeloslinearesgeneralizados 313 19.1Definição 314 19.2Ajuste 317 19.3Inferência 320 19.4Exemplodeaplicação ......................... 326 19.5Superdispersão ............................. 330 19.6OsMLGeaheterocedasticidade ................... 346 19.7 Jupyternotebook ............................ 348 19.8Exercícios ................................ 348 20Modeloslinearesmistos 351 20.1Formulação,estimaçãoeinferência .................. 352 20.2Exemplodeaplicação ......................... 355 20.3Umaanálisedemedidasrepetidas 368 20.4Umexemplocomvariânciagenética 375 20.5Modelolineargeneralizadomisto 380 20.6 Jupyternotebook 382 20.7Exercícios ................................ 382 Referências 385 APacotesdo R 393 BLeiturareduzida 395 CExtra:cenadacapa 397 ÍndiceRemissivo 399

Introduçãoàprobabilidade

Umcasaltemdoisfilhos.Qualéaprobabilidadede:Oprimogênitoserhomem? Osdoisfilhosseremhomens?Pelomenosumdosfilhosserhomem?Ateoriadas probabilidadesnosforneceferramentasnãosópararesponderataisquestões,mas também,eprovavelmentedeformamaisrelevante,paraaconstruçãodemodelos estatísticosrelacionadosafenômenosaleatóriosdeinteresse.Porexemplo,um pesquisadorinteressadoemcompreendercertofenômenobiológicopodeutilizarsedemodelosprobabilísticosparadescreverocomportamentodosseusdados amostraise,assim,fazerinferências,istoé,fazerafirmaçõessobreapopulaçãoda qualretirouaamostra.

1.1 Noçõesdeconjuntos

Antesdeformaroconceitodeprobabilidadeéplausívelfazerumaintroduçãoà teoriadosconjuntos.

Umconjuntoéumacoleçãobemdefinidadeelementos.Porexemplo: A :

1 Capítulo

{1, 2, 3, 4}.Então 2 ⊂ A (oelemento2estácontidoem A).Umoutroconjunto, B,seriaigualao A seesomentese A ⊂ B e B ⊂ A. Seja Ω oconjuntouniverso.Então A ⊂ Ω e B ⊂ Ω.

Complemento: Ac = A = {w ∈ Ω: w/ ∈ A} (w nãoocorreem A)

Operaçõesbásicascomconjuntos •

• União: A ∪ B = {w ∈ Ω: w ∈ Aouw ∈ B} (w ocorreempelomenosum deles)

• Intersecção: A ∩ B = {w ∈ Ω: w ∈ Aew ∈ B} (w ocorreemambos)

• Diferença: A B = A ∩ Bc = {w ∈ Ω: w ∈ Aew/ ∈ B} (w ocorresomente em A)

O DiagramadeVenn éumrecursográficoquepodetrazerbastanteauxílio quandodasoperaçõescomconjuntos.Afigura 1.1 ilustracadaumadasoperações citadas.Aregiãosombreadarepresentaoconjuntosobexame.

Propriedadesdosconjuntos

• Comutativa: A ∪ B = B ∪ A, A ∩ B = B ∩ A

4 Estatísticadecodificada

Figura1.1: DiagramasdeVennilustrandooperaçõesbásicascomconjuntos.

Variáveisaleatórias

Emexperimentosaleatórioscujoespaçoamostralcontémalgunseventosde interesseé,emgeral,maisfácillidarcomoumavariávelaleatória,istoé,émais fácilsumarizarainformaçãodoespaçoamostralemvaloresassociadosaeventos. Porexemplo,emumestudoecológicopodehaverointeresseemdeterminarsecerta espécievegetalestáounãopresenteem n locaisdeumcontinente.Atribuindo1 àpresençae0àausência,oespaçoamostralteria 2n elementos.Nãoobstante, seainformaçãodeinteresseforonúmerodelocaisquecontêmaespécie,então poderiaserdefinidaavariável X representandoonúmerodelocaisondeaespécie estápresente,captandoassimaessênciadoproblema.

Emoutroexemplo,tomeoatodeidentificarosexodeduascriasdeumaégua comosendoumexperimentoaleatório.Oespaçoamostralassociadoédefinidopor S = {MM,MF,FM,FF }.Seja X avariávelaleatóriaquerepresentaonúmero demachosobtidosnasduascrias.Tem-seentão: X(MM )=2, X(MF )=1, X(FM )=1 e X(FF )=0.

Aoespecificaraquantidade X,definimosumatransformaçãoapartirdecada elementopertencenteaoespaçoamostral S paraumnovoespaçoamostral ℜ,um conjuntodenúmerosreais(noúltimoexemplo,osvalores:0,1e2).Essafunçãoa partirdoespaçoamostralnosreaiséoquechamamosde variávelaleatória,como ilustraaFigura 2.1.

Probabilidadespodementãoserassociadasaosvaloresouintervalodevalores deumavariávelaleatória,constituindoassimadistribuiçãodeprobabilidades dessavariável.Muitasdastécnicasestatísticassãobaseadasemmodelosde distribuiçãodeprobabilidades,osquaispodem,obviamente,serutilizadospara

2 Capítulo

Figura2.1: Ilustrandoadefiniçãodevariávelaleatória,funçãocomdomínioem S e contradomínioem ℜ

calcularprobabilidadesdeinteresse.Umexemploclássicodessaaplicaçãoéo cálculodovalor-p nostestesdehipóteses.

Ousodevariáveisaleatóriasequivaleadescreverosresultadosdeumexperimentoaleatóriopormeiodevaloresnuméricosemvezdepalavras,oquenos permiteumtratamentomatemático.

Umavariávelaleatóriaquantitativapodeser discreta ou contínua.

2.1 Variávelaleatóriadiscreta

Umavariávelaleatória X éconsideradadiscretaseoconjuntodevaloresdessa variável,seu espaçoamostral,forenumerável.Emgeral,osvaloresassumidossão númerosinteiros,porexemplo:númerodeanimaisdoentes,númerodeinsetospragaporplanta,tamanhodaleitegadaetc.

Adistribuiçãodeprobabilidadesdeumavariávelaleatóriadiscreta X podeser caracterizadapelasua funçãodeprobabilidade (f.p.),demodoqueaprobabilidade de X assumirumcertovalor x édeterminadapelaf.p.,denotadapor PX (X = x) ousimplesmente PX (x).

Afunção PX éditaf.p.de X seesomentesesatisfizer:

1. PX (X = x) ≥ 0 ∀ x;

2. x PX (X = x)=1

Formalmente,denominamos distribuiçãodeprobabilidadesdav.a.d. acoleção depares[xi,PX (xi)], i =1, 2,...,n,quepodeserapresentadapormeiodetabelas ougráficos.

Revisitandooexemplodasduascriasdeumaégua,poderíamosdefinira seguintedistribuiçãodeprobabilidadesdavariáveldiscreta X (númerodemachos):

20 Estatísticadecodificada

Xi 012

P (Xi) 1/41/21/4

Distribuiçõesdeprobabilidade

AuchderZufallistnichtunergründlich, erhatseineRegelmäßigkeit.

–GeorgvonHardenberg

Adistribuiçãodeprobabilidadesdeumavariávelaleatóriaéumadescriçãodas probabilidadesassociadasaosvaloresouintervalosdevalorespossíveisdessa variável(Montgomery&Runger,2008).Umavariávelaleatóriaécompletamente caracterizadapelasuadistribuiçãodeprobabilidades(Ceconetal.,2012).

Osmodelosdedistribuiçãopermitemnãosóocálculodeprobabilidades,mas tambémadeterminaçãodemedidascomomédiaevariânciadessavariável,sejaela dotipo discreta ou contínua.Taismodelossãofunçõesdeumoumaisparâmetros, istoé,quantidadespopulacionaisquenospermitemvariarcertascaracterísticas dadistribuição(Casella&Berger,2002).

Aescolhadeummodelodeprobabilidadesapropriadoparaosdadospode serdemuitaimportânciaemmétodosinferenciais(e.g. testesdesignificância), podendoalterardrasticamenteasconclusõessobreoestudo.

Algunsdosprincipaismodelos,discretosecontínuos,deprobabilidadesão apresentados.AlgumasdicascomputacionaissãodadasparaestudodasdistribuiçõescomosoftwareR.Paramaisdetalhessobreasimplementaçõesdisponíveis, execute help(Distributions).

Capítulo

3.1 Modelosdiscretos

Distribuiçãouniformediscreta

Umavariávelaleatóriadiscreta X terádistribuiçãouniformediscretasetodos osseus N valores x1,x2,...,xN foremequiprováveis.Então,asuafunçãode probabilidadespodeserassimrepresentada:

PX (X = xi|N )= 1 N ,i =1, 2,...,N

emque N éoparâmetrodadistribuição.Utiliza-seanotação: X ∼ Ud(N ). Éimportanteressaltarqueosvaloresqueessavariávelpodeassumirnão necessariamentetêmquesernúmerosinteiros,maspodemserqualquernúmero real,desdequeaquantidadedessesvalores(N )sejafinita.

Médiaevariância

Se X ∼ Ud(N ) comvaloresnointervalo [a,b], a ≤ b,entãoamédiaeavariância dadistribuiçãosãodadaspor E(X

Aplicações

Oconceitodevaloresequiprováveis,istoé,comamesmaprobabilidadedeocorrência,ébastanteusadoemestudosde distribuiçãoempírica deprobabilidadese emestudosdereamostragem,talcomoatécnicabootstrap(Efron,1979),naqual cadaumdos n valoresdaamostratomaaprobabilidade 1/n deocorrência.

DistribuiçãoBernoulli

Umavariávelaleatória X seguedistribuiçãoBernoullisesuafunçãodeprobabilidade.puderserassimrepresentada:

PX (X = x|π)= π x(1 π)1 x,x =0, 1

emque π ∈ [0, 1] éoúnicoparâmetrodadistribuiçãoerepresentaaprobabilidade de sucesso (X =1).Logo,ocomplemento 1 π representaaprobabilidadede fracasso (X =0).

36 Estatísticadecodificada

a+b 2

N 2 1 12

Var(X)=

Aplicaçõesdaverossimilhança

C’estunevéritétrèscertaineque,lorsqu’iln’estpas ennotrepouvoirdediscernerlesplusvraiesopinions, nousdevonssuivrelesplusprobables.

Suponhaqueosdados x aseguircomponhamumaamostradetamanho n =15 de umavariávelaleatóriadiscreta X querepresentaonúmerodeninfasdecigarrinhadas-raízes(Mahanarvafimbriolata)porparceladecana-de-açúcar.Umgráfico (Figura 4.1)foiconstruídoparailustraradistribuiçãodefrequências.

Dadaanaturezadacontagem X,consideremosrazoávelassumiradistribuição Poissoncomparâmetro λ,emque:

Masqualseriaovalorapropriadocomoestimativade λ,ataxadeocorrência doinseto-praga?Oumelhor,dequeformaépossívelobterumaestimativa ˆ λ adequadaparaquepossamosutilizaromodeloPoissonparacalcularprobabilidades efazerinferências?

Responderemosasperguntasatravésdeumatécnicaholísticadeestimação deparâmetros,conhecidacomo métododamáximaverossimilhança-MMV (em inglês, maximumlikelihoodmethod-MLM).Paratal,saibamosantesoque significa verossimilhança emtermosestatísticos.

4 Capítulo

–RenéDescartes

1 >x <- c (7,6,6,4,4,3,2,5,2,4,3,4,3,2,1) 2 > plot ( table (x))

PX (X = x|λ)= exp( λ)λx x!

Parafinsdidáticos,considereumsubexemplo(n =3),oumesmoumanova amostraqualquer, x =(x1 =7,x2 =6,x3 =6) Suponha asprobabilidades P (x1)= 1 5 , P (x2)= 1 4 e P (x3)= 1 4 .Agorapergunte-se:–Qualéaprobabilidade deseobter x1 =7 e x2 =6?Resposta:se x1 forindependentede x2,entãoa probabilidadeé 1 5 × 1 4 = 1 20 .–Agoraqualseria aprobabilidadedeseobtera amostra x daformacomoelaseapresenta? Resposta:seoselementosforem todosindependentes,similarmente,tem-se: 1 5 × 1 4 × 1 4 = 1 80 .Édesseconceito quesurgea funçãodeverossimilhança.Mas,emvezdesimplesmente“supor” probabilidadesparaos xi,utiliza-seum modelo paracalcularasprobabilidades.

Percebeuqueapalavra“independência”foimencionadamaisdeumavez?

Guarde-a.Essaéumasuposiçãofrequenteemdiversosmodelosemétodos estatísticos,muitosdelesapresentadosnaparteIIdestelivro.

4.1 Métododamáximaverossimilhança

Afunçãodeverossimilhança L éobtidaatravésdafunção(oumodelo)deprobabilidade(oudensidadedeprobabilidade,casoavariávelsejacontínua)assumida, PX ,aplicadaaosdadosamostraisobservados xi (i =1, 2,...,n),istoé,aresultante doprodutório

66 Estatísticadecodificada 0 1 2 3 4 x table(x) 1 2 3 4 5 6 7

Figura4.1: Frequênciasabsolutasdex:númerodeninfasdecigarrinhaporparcela.

L(θ|x1,x2,...,xn)= n i=1 PX (X = xi|θ)

Ométododelta

5.1 Definição

Considerecomovariáveisaleatóriasos p componentesdovetor ˆ θ =( ˆ θ1,..., ˆ θp) deestimadoresnãoviesadosde θ,istoé, E( ˆ θ)= θ,podendo,inclusive,ter sidoobtidosatravésdo métododamáximaverossimilhança-MMV.Considere Σ comosendoamatrizde(co)variânciasde ˆ θ.Agorasuponhaqueointeresse estejanãoem ˆ θ diretamente,masnumafunçãonãolinear1,diferenciável,desses estimadores, f ( ˆ θ).Ora,ésabidoqueoMMVforneceestimadoresquepossuemo chamado princípiodeinvariância,demodoque f ( ˆ θ) tambéméumaestimadorde máximaverossimilhança.Noentanto,enquantoérelativamentesimplesobteruma estimativade Σ atravésdainformaçãodeFisher(tambémvistaanteriormente), obterumaestimativadevariânciade f ( ˆ θ) nãoétarefatãosimples.Nessecaso, pode-selançarmãodo métododelta

AtravésdeaproximaçõespelasériedeTaylordeprimeiraordem,o método delta permiteobterumaestimativadavariânciadeumafunçãonãolinearde variáveisaleatóriascommatrizde(co)variâncias(supostamente)conhecida Σ. Comisso,percebaqueépossívelrealizarinferências(testesdehipóteses,intervalos deconfiançaetc.),eissoéfeitoassumindodistribuiçãonormalpara ˆ f ,commédia f evariância:

1Parafunçõeslineares,aplicam-seaspropriedadesdeesperançadevariáveisaleatórias.Por exemplo: Var(aX ± bY )= a 2Var(X)+ b2Var(Y ) ± 2abCov(X,Y ).

5 Capítulo

istoé,ovetortranspostodegradientesouderivadasparciaisdeprimeiraordem de f emrelaçãoacada ˆ θi (i =1, 2,...,p).

Naformaunivariada,istoé,emque ˆ θ representaumavariávelaleatóriacom variânciaconhecida σ2,aaproximaçãodavariânciade f

fica:

Adistribuiçãoassintoticamentenormalesperadapara

f ,estimadodeuma sequênciade n variáveisaleatóriasassumidasnormais,implicaem

Aseguirsãomostradasaplicaçõesdométodoparaobterumaaproximaçãode variância.Noentanto,ométododeltatemoutrasaplicações,sendoumadelas paracorrigiroviésdeestimadores,porexpansãodasériedeTayloratésegunda ordem.

5.2 Exemplosdeaplicação

HánoRimplementaçõesdométododelta,comoa deltaMethod() dopacote car (Fox&Weisberg,2011).Apenasporquestõesdedidáticasseráinicialmente exemplificadoaseguirofuncionamentodométodopassoapasso.

Exemplo1:Precisãodamédiagama

Sejamosdadosutilizadosnocapítuloanterior,

1 >x <- c (7,6,6,4,4,3,2,5,2,4,3,4,3,2,1)

paraosquaisassumimosdistribuiçãogama(α, β),cujasestimativasdeMVjá foramobtidas,assimcomoamatrizdecovariâncias.Recapitulando:

1 >negLogL <- function (pars)- sum ( dgamma (x,shape=pars[1], scale =pars [2], log =TRUE))

2 >emv <- optim ( par = c (a=6,b=0.7),fn=negLogL,hessian=TRUE)

3 >emv # estimativas de MV

92 Estatísticadecodificada ˆ Var[f ( ˆ θ)] ≈ g ′Σg sendo g ′ = ∂f ∂θ1 ... ∂f ∂θp

ˆ θ)

ˆ Var[f ( ˆ θ)] ≈ [g( ˆ θ)]2 σ 2

(

√n(f ( ˆ θ) E[f ( ˆ θ)]) d → N (0, [g( ˆ θ)]2 σ 2).

Obootstrap

Thebootstrap,theexistanceofthebootstrapmeansthat peoplewhoarethinkingupatalgorithms(estimators) don’thavetoworryaboutmathematicaltractability; theyaregoingtobeabletoevaluateitsaccuracy nomatterhowcomplicatedthealgorithmis.

Bootstrapemétododeltasãoduasnausquenavegampelomesmomar,enfrentam amesmaprocela,masseguemrotasdiferentesparaumdestinoemcomum.Quer dizer,semabusardaléxica,ambososmétodospodemseraplicadosparaobter umamedidadevariabilidadedeumestimadordeinteresse,cujasoluçãoanalítica, quandoexiste,mostra-sematematicamenteinviável.Ambosfornecemumamedida devariabilidadeaproximada.Adiferençabásicaéqueométododeltaoperasobre certascondiçõesparaoestimador–esteprecisaserumafunçãodiferenciável,eas inferênciassãofeitasassumindonormalidadeassintótica,enquantobootstrapé umatécnicamaisgeral,baseadaemreamostragem,nãonecessitandolidarcom diferenciaçãonemassumindomodelosdedistribuiçãodeprobabilidade.

Defato,bootstrapéumatécnicamajoritariamentenãoparamétrica,embora hajaversõesparamétricas.Podedesempenhardiversospapéiseminferência,além doqueéapresentadonestecapítulo.Umaaplicaçãofrequenteénaconstruçãode intervalosdeconfiançaparaalgumparâmetrooufunçãodeste.Ofuncionamento dobootstrapédealgumaformasimilaraoutratécnica,chamada jackknife

Nestecapítuloserãoapresentadasimplementaçõescomputacionaisdebootstrap nãoparamétrico,atítulodedemonstração,mastambémvisandoprovermais

Capítulo

–BradleyEfron

autonomiaparaoleitoremfuturasaplicaçõesmenosconvencionaisdebootstrap. Nãoobstante,ousuáriodoRpoderáencontrarmaispraticidadecomospacotes bootstrap (Tibshirani&Leisch,2017)e boot (Canty&Ripley,2017).

6.1 Definição

ObootstrapfoipropostoporEfron(1979)comoummétodocomputacionalpara estimarodesviopadrãodeumestimador ˆ θ combaseemamostraaleatóriade dados,cujadistribuiçãodeprobabilidadepodeserconhecidaounão.Aestimativa dedesviopadrãonãoenvolvenenhumcálculoteórico,pormaiscomplicadoque possaser ˆ θ dopontodevistamatemático.Eénistoqueresideopoderda abordagembootstrap–nasuaadaptabilidadeaalgoritmoscomplexoseporser livredepressuposiçõescomonormalidade.

Bootstrapéummétododereamostragemcujaideiacentraléque,naausência dequalquerconhecimentosobreapopulação,adistribuiçãodevaloresemuma amostraaleatóriadetamanho n provenientedessapopulaçãoéomelhor“guia” paraadistribuiçãodosvaloresdapopulação.Emoutraspalavras,os n valoresda amostraobservados,cadaumcomprobabilidade 1 n ,sãousadospara“emular”a populaçãoapartirdereamostragem comreposição.

Considere ˆ F comosendoafunçãodedistribuiçãoempíricaobtidacoma amostra x =(x1,x2,...,xn),comprobabilidade 1/n paracada xi.Agoraconsidere aestatística(estimador)deinteresse ˆ θ = f (x),quepodeseramédia,amediana ououtrafunçãodosdados.Uma amostra ou reamostrabootstrap édefinidacomo umaamostraaleatóriademesmotamanho(n)daamostraoriginal.Denotamos x∗ =(x∗ 1,x∗ 2,...,x∗ n) aamostrabootstrap,istoé,cada x∗ consistedeumaversão aleatorizadadaoriginal x.Correspondenteacadaamostrabootstrap,háuma estimativa ˆ θ∗ = f (x∗).Especificamente,oalgoritmoparaobtençãododesvio padrãode ˆ θ é:

1. Daamostraoriginal,obtenha B amostrasbootstrap, x∗ 1, x∗ 2,..., x∗ B ,cada umadetamanho n,tomadascomreposição.

2. Avalieaestatísticadeinteresseemcadaamostrabootstrap ˆ θ∗ b = f (x ∗ b ),b =1, 2,...,B.

100 Estatísticadecodificada

Conjuntosdedados

–Data!data!,hecriedimpatiently. –Ican’tmakebrickswithoutclay.

–ArthurConanDoyle

TheAdventuresofSherlockHolmes

Estecapítuloédedicadoàapresentaçãodosconjuntosdedadosexperimentais utilizadosousugeridosaolongodasegundapartedolivro,bemcomoàformade acessoaeles.

Todososmateriaissuplementaresdestelivro,como scripts doRe,claro,os conjuntosdedados,estãodisponíveisemumrepositóriodeacessopúblicona plataforma GitHub,em: github.com/arsilva87/statsbook

Oleitorcuidadosoiráperceberquealgunsdadosnãoestãodisponíveisno repositório.Masissooufoiproposital,paraservirdeexercíciodetabulaçãoe importaçãodedados,ouporqueoconjuntodedadoséestruturalmentesimplese podeserfacilmentetransferidoparaoR.

Éimportantepercebertambémqueessesconjuntosdedadospodemedevem seranalisadoscomoutrosmétodos,alémdosqueestãosubmetidosnestelivro.Por exemplo,todososconjuntosdedadospodemserutilizadosparaajustesdeMLGs (Cap.19)emodelosdeefeitosmistos(Cap.20).Esseexercíciodeidentificação, escolhaeexploraçãodemétodoséessencialparaobomaprendizadoeparaa tomadadedecisãocombaseemresultadosdeanálises.

7 Capítulo

Aseguir,umabrevedescriçãodosdadosdecadaconjunto,nomedoarquivo, extensão,oscapítulosdolivronosquaiselessãoutilizadoseo QRcode contendo o link deacesso,permitindoimportaçãodiretanoR.

Dados‘batata’

Dadosdeprodução(kg)detubérculosporparcela(unidadeexperimental)obtidos deumexperimentoemblocosaoacaso(DBC)cujostratamentossãoquatro cultivaresdebatata,comtrêsrepetições.Oscultivares1e3sãoresistentesa requeima,principaldoençadabatata,causadapeloagente Phytophthorainfestans.

NomeExtensãoCapítulos QRcode

batata.txt8,14e15

batata.xlsx8e16

Pré-visualização (6primeiraslinhas):

Dados‘pareada’

Experimentoemblocoscasualizadosemquecadaparcelatratadapossuisua respectivaparcelacomumatestemunha(nãotratada)pareada.Ostratamentos sãosolubilizadoresdefósforo.Avariávelresposta(resp)éamassaseca(kg)de plantasdemilho.

1 tratblocorespresp pareada

2 1T1137.6647.20

3 2T1242.2943.39

110 Estatísticadecodificada

cultivarbloco prod

11150.9 3 21250.6 4 31351.2 5 42149.1 6 52249.3 7 62349.9

Importaçãoeexportaçãodedadosno R

Nestelivro,tendoquerecorrerfrequentementeaosoftware R paraasanálisesestatísticas,emespecialdestasegundapartedolivro,nosseráoportunaaintrodução dasprincipaisformasdeimportaçãoeexportaçãodedadostabulados,comoéo casodosdadosexperimentais.

8.1 Importaçãodedados

O R permiteimportararquivosemdiversosformatos,algunsuniversais,como.txt, .dat,.csv,eoutrosespecíficos,como.R,.rda,.rds.Paratal,háalgumasfunções principais.Ei-las:

• read.table() -paraleituradedadostabulados

• read.csv() ou read.csv2() -paraleituradedadostabuladosnoformato .csv

• readLines() -paraleituradaslinhasdeumarquivodetexto

• source() -paraleituradecódigosem R

Vejaquaisosargumentossãonecessáriosparautilizarafunção read.table(), porexemplo.Oudigite args(read.table)

Todasasfunçõesmencionadaspermitemaleituradedadosdaweb,sem anecessidadededownloaddoarquivoemsi.Paratanto,bastainformarno

8 Capítulo

argumento file oendereçoURLdoarquivo.Exemplo:oarquivobatata.txt(vide Capítulo7)podeserlidodiretamentedorepositóriowebpormeiode:

1 >batata <- read table ( file ="https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / batata.txt",header=TRUE, colClasses= c ("factor","factor","numeric"))

2 >batata

3 cultivarbloco prod 4 11150.9

5 21250.6

6 31351.2

7 42149.1

8 52249.3

9 62349.9 10 73149.9 11 83249.8 12 93349.5

13 104149.2

14 114249.1

15 124350.0

Notequeusamosoargumento header=TRUE.Issopermiteidentificara primeiralinhacomonomes(cabeçalho)dascolunas,nãodados.Jáoargumento colClasses permitequesejamdefinidasasclassesdecadacoluna;nocaso, cultivareblocosãodotipo factor,paraquesejamreconhecidascomocategóricas emvezdenuméricasououtrotipo.

Apósaimportação,éfortementeindicadoquesejafeitaumaanáliseda estruturadosdadosimportados.Pode-seutilizarocomando:

1 >str(batata)

2 ’data.frame’:12obs.of3variables:

3 $ cultivar:Factorw / 4 levels "1","2","3","4":111...

4 $ bloco:Factorw / 3 levels "1","2","3":12312...

5 $ prod :num50.950.651.249.149.349.949.9...

Comoquepercebemosqueoobjeto batata édaclasse data.frame,tendo12 observações(linhas)e3variáveis(colunas).Percebemosaindaquecadacolunaé classificadatambém.Acoluna cultivar,comovimos,édotipo factor com4 níveis(categorias).Temosalgosemelhantepara bloco.Issoédefundamental importânciaparaautilizaçãodessesdadosemalgumasanálises,comoaanálise devariância.Porfim,acoluna prod édotiponumérica.

122 Estatísticadecodificada

Análiseexploratóriadedados

Exploratorydataanalysiscannever bethewholestory,butnothingelsecan serveasthefoundationstone–asthefirststep.

–JohnTukey

Aanáliseexploratóriadedadosdevesersemprefeitae,nãoraramente,podeser decisivanaescolhadeummétodoestatísticoinferencial.Aexploraçãodedadosé comumentefeitadasseguintesformas:i)estudodadistribuiçãodefrequências dosdados,ii)pormeiodemedidasdescritivasqueprocuramresumirainformação daamostra,eiii)pormeiosgráficos.

9.1 Distribuiçãodefrequências

Algumasferramentasfrequentementeutilizadasparaoestudodedistribuiçãode frequênciassão:

• Gráficodebarras

• Gráficodepizzaoudesetores

• Diagramaderamos-e-folhas

• Histograma

• Densidade kernel

9 Capítulo

Emparticular,osdoisúltimossãoadequadosparadadosquantitaivos.Para tal,podemosutilizarasfunções stem() e hist().Adistribuiçãodefrequências devariáveiscategóricasouqualitativaséfeitacomosdoisprimeiros.Paraestes, algumasfunçõesúteissão: table(), barplot() e pie().

Exemplo

Utilizandoosdadoscamadassolo.csv(videCapítulo7),faremosodiagramade ramos-e-folhasdavariávelresistênciaàpenetração:

1 >solo <- read csv ("https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / camadassolo.csv",header=TRUE)

2 > stem (solo $ RP)

4 Thedecimalpoint is atthe|

6 0|47

1|0001445566668899

8 2|00000111112234455555667788999

9 3|000011222334444778

10 4|0002334446788

11 5|2277

12 6|25

PodemosobservarquehámaiorfrequênciadevaloresdeRPentre1e4Mpa. Poroutrolado,valoresdeRPacimade5MPasãopoucoprováveis.Useo comando hist(solo$RP) paraconstruirumhistograma.

Densidade kernel

Histogramassão,sim,amplamenteutilizadospararepresentaradistribuiçãodos dados,umavezqueelesdãoideiadaformadaverdadeirafunção f dedistribuição defrequênciadosdados.Contudo,histogramascomoestimadoresdedensidade podemsercriticados,principalmentepordesperdiçarpartedosdadosquando daformaçãodasbarrasdefrequência.Alternativasrobustassãoosgráficosde densidadekernel,osquaisestimam f porsuavização,levandoemcontacada observaçãodaamostra.

Seja x1,x2,...,xn umaamostradetamanho n deumavariávelaleatória X comfunçãodensidade f .Oestimadordedensidadekernelde f noponto x édado por:

128 Estatísticadecodificada

ˆ f (x)= 1 nh n i=1 k x xi h

Introduçãoaostestesdehipóteses

Iftherewereaprobabilityofonly p =0 04 of findingacrockofgoldbehindthenexttree, wouldn’tyougoandlook? –GeorgeBox

NaparteIdestelivrovocêtevecontatocomalgumastécnicasdeinferência estatística,comoestimaçãodeparâmetrospelométododamáximaverossimilhança, métododeltaetestesdehipótesesdotiporazãodeverossimilhanças,ouainda pormeiodeintervalosdeconfiançabootstrap.Nestecapítulofaremosumpasseio brevepelosmétodosclássicosbásicosdetestesdehipóteses.

10.1 Exemplodeintrodução

Ahipercalcemiaestárelacionadaaconcentraçãoelevadadepotássionoorganismo, causandofraquezamusculareatéparalisiaemequinos.Admitaqueemanimais saudáveisdeatéseismesesdeidade,aconcentraçãomédiadepotássioéde µ =4 2 mmol/Lsangue,comdesviopadrão σ =0.5 mmol/L.Noentanto,desconfia-sede quedeterminadadietaestápromovendosintomasdadoença.Umaprovafoifeita em n =10 animais,osquaisapresentarammédia x =4.6 mmol/L.Seráqueisso nosdáevidênciasdequeéprecisoreveraquantidadedepotássionadietaouesse resultadoépuroefeitodoacaso?

Essaquestãonosremeteaoconceitodedistribuiçãodeprobabilidadesdeuma variávelaleatória.Veja,nesteexemploaconcentraçãodepotássionosangueéa nossavariávelaleatória X.Comovamosnosateramétodosclássicosdetestesde

10 Capítulo

hipóteses,admitiremosque X temdistribuiçãonormal.Voltandoaoproblema, seosanimaisestiveremsaudáveis,érazoávelaceitarahipótesedequeamédia obtidaéresultadodoacasoapenas,istoé,pode-seafirmar

H0 : µ =4.2

Todavia,seamédiaamostralforconsiderada estranha osuficiente,entãoocorreto seriaadmitirahipótesealternativa

H1 : µ> 4.2

Observequefoiutilizadaapalavra estranha emrelaçãoàestimativa x =4.6. Defatoumtestedehipótesesconsisteemavaliara probabilidade deumaestimativa estar fora davariaçãoesperadaaoacaso.Éissoquechamamosde p-valordoteste.

Então,quandoestevalorésuficientementebaixo,significadizerqueosdados amostraisestãonosdandoevidênciapararejeitar H0,istoé,aestimativaobtidaé suficientemente estranha quandocomparadacomavariaçãoesperada.–Masqual seriaessavariaçãoesperada? Éjustamentepararesponderaessaperguntaque precisamosdomodelodedistribuiçãodeprobabilidadesde X,poiséelequem descreveessavariação.

Assumirque X éNormal(µ =4 2, σ =0 5),implicaemassumirqueamédia amostral x temtambémdistribuiçãonormal,commédia µx =4 2 edesviopadrão1

pois,setodasasobservações xi’sdaamostrasãoindependenteseprovenientesda mesmadistribuição,

Assim,sabendoadistribuiçãode x,podemosavaliarcomqualdasduas hipótesescondizmaisovalorobtidocomosanimaisdoestudo.Masobserveque, paraisso,precisamosavaliarcomoéadistribuiçãode x sobahipótesedequeos animaisestãosaudáveis,istoé,tendo H0 comoverdadeira.Issoémostradona Figura 10.1.

Percebaque,seosanimaisforemconsideradossaudáveis,entãoapenasem 100 × 0.0056=0.56% doscasosamédiaseriasuperiora4.6mmol/L.Ouainda que,em95%doscasos,ovalormédioseriadeaté4.46mmol/L.Estimativas

1Odesviopadrãodamédiaamostralétambémchamadode erropadrão.

142 Estatísticadecodificada

σx = σ √n = 0 5 √10 ≈ 0 158

Var(¯ x)= 1 n2 n i=1 Var(xi)= σ2 n

Covariânciaecorrelação

Outrapartefundamentaldaanáliseexploratóriadedadoséoestudodemedidas deassociaçãoentrevariáveis.Alémdisso,aexistênciadeassociaçãoentrevariáveis respostaécondiçãofundamentalpararealizaçãodeanálisesmultivariadas,nosentidodequeinterdependênciaimplicaemnenhumganhoemrelaçãoàinformações obtidascommétodosunivariados.

Ograudeassociaçãolinearentrevariáveiséusualmentemedidopormeio dacovariânciaepormeiodecoeficientesdecorrelação.Sendoqueaprimeiraé afetadapelasunidadesdemedida,ascorrelaçõesnão.

11.1 CovariânciaecorrelaçãodePearson

Considereduasvariáveisquaisquer, X e Y .Acovariância Cov(X,Y ) éuma medidadograudevariaçãolinear conjunta entreessasvariáveis,ouseja,oquanto devariabilidadeelascompartilham.Noteque,seconsiderarmosasoma X + Y ,a variânciaé

AFigura 11.1 ilustraesseconceito.

Paraobteracovariânciaamostral,lembre-sedoestimadordavariânciaamostral enoteasemelhança.Analogamente,temos:

11 Capítulo

Var(X + Y )= Var(X)+ Var(Y )+2Cov(X,Y )

istoé,consistedamédiadosprodutoscruzadosentreos n paresdevalores amostrais x e y centradosnassuasmédias.

Jáimportamososdadoscamadassolo.csv(Cap.7)paraoobjeto solo efizemos attach(solo) para liberar ascolunascomovariáveisglobaisnamemóriadoR1 . CalcularemosacovariânciaentreasvariáveisUSeRPdaseguinteforma:

1 > cov (x=US,y=RP)

2 [1]-1.989888

comoquepercebemospelosinalnegativoquearelaçãoentreRPeUSéinversa. Noentanto,ovalor1.98nãotemdefatoumsentidoprático,jáqueconsistede umacombinaçãodeunidadesdemedidasdistintas:MPa × %,demodoquenão sabemosdefatoseessarelaçãoinversaentreasvariáveiséaltaoubaixa.Sabemos apenasque,quantomaioraumidadedosolo,menoraresistênciaapenetração.

Acorreçãodesteproblemavemcomumtipodepadronizaçãofeitanacovariância,dividindo-apeloprodutodosdesviospadrãodecadavariável.Observeque sRP édadoemMPae sUS édadoem%.Assim,oresultadodadivisãogeraum valoradimensional,entre-1e1,quenadamaisédoquea correlaçãoamostral ou, maisespecificamente,o coeficientedecorrelaçãodePearson.

168 Estatísticadecodificada

Y ˆ Cov(X,Y )=ˆ σXY = sXY = 1 n 1 n i=1 (xi x)(yi y)

Figura11.1: Diagramailustrativoda(co)variânciaentreduasvariáveisaleatórias X e 1Recomenda-sefazer detach(solo) emseguida,paraevitarconflitosdeobjetoscomovariáveis globais.

Regressão

Itisbettertobecontentwiththefractionof arightsolutionthantobeguileourselves withthewholeofawrongsolution.

–KarlPearson

Asimplescorrelaçãoentreduasvariáveisnãoforneceideiadecausaeefeitode umavariávelsobreoutra.Porexemplo,quantoseráamudançamédiaem Y quando X variaremumaunidade?Alémdisso,naanálisedecorrelaçãoambas asvariáveissãoconsideradasresposta,ouvariáveisaleatórias,oquenemsempre ocorre.Considere,porexemplo,umestudodedose-respostadeumfertilizante sobreaproduçãovegetal.Avariáveldoseéacontroladapelopesquisador,istoé, nãoéaleatória,massimumavariávelexplanatória1 cujoefeitosobrearesposta produçãoestásendoavaliado.

12.1 Regressãolinearsimples

Vimosnocapítuloanteriorquearesistênciadosoloàpenetração(dadoscamadassolo.csv,disponíveisnoCap.7)apresentacorrelaçãolinearnegativacoma quantidadedeáguanosoloepositivacomadensidade.Faça:

1 > plot (RP DS, data =solo)

1Podemserconsideradostermossinônimos:variávelregressora,regressor,variávelpreditora, preditorouvariávelindependente.

Capítulo

Percebaquearelaçãoélinear.Ajustaremosentãouma retademínimos quadrados,istoé,ummodeloderegressãolinearsimplescujosparâmetros(b0 e b1)sãoestimados,comoserávistoaseguir,pelo métododosmínimosquadrados–MMQ.

yi = b0 + b1xi + ϵi

emque ϵi éoerroaleatórioouresíduoassociadoaobservação yi.Emgeral,para realizarinferênciassobreosparâmetros,assumimosdistribuiçãonormalparaos resíduos2 commédiazeroevariânciaconstante σ2 . Afunçãoaserchamadaéa lm() (de linearmodels).

1 >m1 <- lm (RP DS, data =solo)

2 >m1

4 Call :

5 lm ( formula =RP DS, data =solo)

7 Coefficients:

8 (Intercept)DS

9 -19.6213.49

Aestimativa ˆ b0 = 19.62 dointerceptonesseexemplonãopossuiinterpretação, poisomodelonãopassapelaorigemem x,istoé,osvaloresdedensidadedosolo (DS)analisadossãotodosmaioresquezero,demodoqueomodeloajustadosótem validadeparavaloresdeDSentre1.44e1.88kgm 3,quesão,respectivamente, omenoremaiordaamostra.Jáaestimativa ˆ b1 =13 49 indicaocoeficiente angular.Sendoestepositivo,aretaéascendenteou,ainda,significaqueestamos descrevendoumarelaçãopositivaentre x (DS)e y (RP).Emais,podemos interpretaressevalorcomosendoamudançaesperadaem y quando x variarem umaunidade.Ouseja,paracadaunidadededensidadedosoloqueseaumenta, háumaumento(vejaqueosinalde ˆ b1 épositivo)esperadode13.49MPana resistênciadosoloapenetração.

Adicionearetaaodiagramadedispersão(Figura 12.1)com:

1 > abline (m1, col ="blue")

Ométododosmínimosquadrados

Vocêpercebeuqueasestimativas ˆ b0 = 19.62 e ˆ b1 =13.49 fornecemoajuste “ótimo”dareta.Essecritériode otimalidade ébaseadonaminimizaçãodo

2Veremosmaisadiantecomochecaranormalidadedosresíduosetambémoutrasexigências domodelo,paraocasodesefazerinferências.

186 Estatísticadecodificada

Análisederesíduos

Apósoajustedeummodelo,éimportantechecaroseugraudeajusteaosdados. Emmodeloslinearesclássicos,algumasanálisespodemserrealizadassobreos resíduosordinários,comoocoeficientededeterminação.Contudo,hácertas limitaçõesnessetipoderesíduos,comoserávisto.Nãoobstante,outrostiposde resíduospodemedevemserpriorizadosparaseavaliaroajusteeainfluênciade observaçõesnoajustegeraldomodelo.

Apresençade ouliers,pontosdealavanca(leverage),aescolhainapropriada dosfatoresdomodelo,daescaladavariávelpodemcausarfalhasnoajuste.Em geralafaltadeajusteocorreporumacombinaçãodestes.

13.1 Resíduosordinários

Consistemdadiferençaentreovalorobservado(yi)davariávelrespostaeoseu valoresperado(ˆ µi)deacordocomomodelo.

Nomodelolinearclássico y = Xβ + ϵ, µ = Xβ.Omodelopodeainda serexpressoemfunçãodamatriz H deprojeção: y = Hy + ϵ,emque H = X ′(X ′X) 1X,cujoselementosdadiagonalprincipalsãochamados leverages (hi),talque hi = x′ i(X ′X) 1xi.Amatriz H étambémconhecidacomo hat matrix,porseramatrizquecolocao chapéu novetordeobservações y,istoé, forneceosvalorespreditos ˆ y.Então,tem-se:

13 Capítulo

ˆ ϵi = yi ˆ µi

Napráticaissoquerdizerqueosresíduosordináriosnãopossuemvariâncias iguais,poisdependemde hi,nemsãoindependentes,pois Cov(ˆ

i, ˆ

j )= hij

, para i = j.

NoR,afunção residuals() extraiosresíduosdeobjetoscontendooresultado doajustedosmodelos.Jáos leverages sãoobtidoscomafunção hatvalues().

Exemplo

Revisitemosoobjeto m1 ajustadonocapítuloanteriorcontendooajustedeuma regressãolinearsimplesdaresistênciaapenetraçãoemfunçãodadensidadedo solo(dadoscamadassolo.csv).

1 >m1 <- lm (RP DS, data =solo)

2 >m1

4 Call :

5 lm ( formula =RP ~ DS, data =solo)

7 Coefficients:

8 (Intercept)DS

9 -19.6213.49

Amatriz H deprojeção,dedimensão 84 × 84,éobtidafazendo:

1 >X <- model . matrix (m1)

2 >H <- X% * % solve ( t (X)% * % X, t (X))

3 >H[1:5,1:5]

4 12345

5 10.0287114-0.00322120.03207280.0303921-0.0049019

6 2-0.00322120.0255182-0.0062464-0.00473380.0270308

7 30.0320728-0.00624640.03610640.0340896-0.0082633

8 40.0303921-0.00473380.03408960.0322408-0.0065826

9 5-0.00490190.0270308-0.0082633-0.00658260.0287114

11 >h <- hatvalues(m1)

12 >h[1:5]

13 12345

14 0.0287110.0255180.0361060.0322400.028711

218 Estatísticadecodificada ˆ ϵ = y Hy = (I H)y Var(ˆ ϵi)=(1 hi)σ 2

σ2

Análisedevariância

However,perhapsthemainpointisthatyouareunderno obligationtoanalysevarianceintoitspartsifitdoesnot comeaparteasily,anditsunwillingnesstodosonaturally indicatesthatone’slineofapproachisnotveryfruitful.

–Fisher,1933

Frequentementeconduzimosexperimentosparaprovarhipótesescientíficas.Admitindoqueestessejamdelineadosdeformaadequadaeregidospelosprincípios básicosdaexperimentação(repetição,casualização,controlelocal),avariação totaldosdadospodeserdecompostaempartesconhecidas,devidasaosfatores estudados,eempartedesconhecida,oerroexperimental.Essatécnicadedecomposiçãoédenominada análisedevariância (ANOVA),eestáassociadaaoteste F paraasfontesdevariaçãoconhecidas,taiscomotratamentos,interaçãoetc.

Veremosnestecapítulo,comorealizaranálisedevariânciadedadosexperimentaisprovenientesdodelineamentointeiramentecasualizado(DIC)edeblocos casualizados(DBC),ambosenvolvendoapenasumfatordetratamento.

14.1 Nutsandbolts

AntesdeformalizaroconceitodeANOVA,dadooprotagonismodestatécnica emanálisesestatísticasdedadosexperimentais,faremosumaintroduçãomais intuitiva,pormeiodeumexemplosimples,paraqueoleitoriniciantenessetipo deprocedimentopossaentenderbemcomofunciona.

Capítulo

Considereumaamostracom n =20 dados1 deprodução(kg)degrãosde milho.Chamaremosproduçãodevariávelresposta y.Cadavalorde y foiobtido deumaparcelade4m2 numexperimentodecampo,istoé,há20parcelasno total.

1 >y <- c (25,26,20,23,21,31,25,28,27,24,22,26,28,25,29, 33,29,31,34,28)

Ocorrequeestasparcelasforamcultivadascomquatromateriaisgenéticos (variedades)distintosdemilho(A,B,CeD).Cadamaterial,queaquichamaremos detratamento,foicultivadoem5parcelas,istoé,foi repetido cincovezes.

1 >variedade <- gl (4,5, labels =LETTERS[1:4])

2 >variedade

3 [1]AAAAABBBBB C C C C C D D D D D

4 Levels:AB C D

Podemosdizeraindaque,porexemplo,ascincorepetiçõesdotratamento ArepresentamumaamostraretiradadapopulaçãodevaloresdeA.Estamos interessadosemsabersehádiferençasentreostratamentos,emníveldepopulações. Comonãotemososdadosdaspopulações,faremosconclusõessobreelascombase nosdadosdasamostras.Chamamosissode inferênciaestatística.

Aprendemosemcapítulosanterioresamensuraravariabilidadedeumaamostra.Issopodeserfeito,porexemplo,pormeiodavariânciaamostral,que basicamentemedeoquantoosvalores y sedesviamdamédia y =26 75 kg.A quantidade

SQy = (y y)2

chamadadesomadequadrados,refleteexatamenteessavariaçãototalem y Noexemplo, SQy =275 75.Aunidadedemedidanãonosconvém.Aparte superiordaFigura 14.1 mostraalocalizaçãodecadavalorde y e,abaixo,mostra separadamenteoscincovaloresdecadatratamento.

Supostamente,asvinteparcelasondefoiinstaladooexperimentosãohomogêneas.Apesardisso,observequeaindaassimhávariaçãonosdadosdeprodução entreasparcelasquereceberamummesmotratamento.Porexemplo,avariação (SQ)dentronotratamentoAéde26;notratamentoBéde30;eassimpordiante. Asomadessasvariaçõesinternaséde112.Observeaindaqueessesvaloresde variaçãointernasãosemelhantes.Eissoéumadasexigênciasparaserealizara ANOVA.Chamamosistode homocedasticidade.

1ExtraídosdeVieira&Hoffmann(1999).

228 Estatísticadecodificada

Comparaçõesmúltiplasdemédias

Wheneverweattempttotestahypothesis wenaturallytrytoavoiderrorsinjudgingit. Thisseemstoindicatetherightwayofproceeding: whenchoosingatestweshouldtrytominimize thefrequencyoferrorsthatmaybe committedinapplyingit.

–JerzyNeyman

Quandooteste F daANOVAestásendoutilizadoparatestardiferençasentre I tratamentos,aseguintehipótesedenulidadeéformulada:

Quando I> 2,algumascomparaçõesespecíficasdetratamentospodemser deinteresse.Nessecontexto,osprocedimentosdecomparaçõesmúltiplassão apropriadoseservemcomoumcomplementodoteste F

Háumnúmerorazoáveldeprocedimentosnaliteratura.Aplicaremosalguns deles,separando-osdeacordocomafinalidade,emdoistiposprincipais:comparaçõesplanejadasecomparações post-hoc.E,emboraasaplicaçõesaseguirsejam apresentadasconsiderandométodosclássicosdeinferência,algunsdosprocedimentospodemserestendidosparatestesassumindooutrasdistribuiçõesalémda normal.

15 Capítulo

H0 : µ1 = µ2 = = µI

15.1 Teste t paracontrastes

Umcontrasteéumacombinaçãolineardemédiascujasomadoscoeficientesé nula,istoé,

Revisitandooexemplosobrecultivaresdebatatadocapítuloanterior,podemos construirumcontrasteentremédiasdecultivaresresistentes(1e3)esuscetíveis (2e4)à P.infestans:

Nocaso,otestede C refere-seàcomparaçãodedoisgruposdemédias, conformepodemosescrevernahipótese H0 : µ1 + µ3 = µ2 + µ4.Esteé,então, umacomparaçãodotipo planejada,poispercebaqueháumsentidopráticona comparação–gruposderesistênciaàdoença.Aestatística t-Studentpodeser utilizadaparatestarasignificânciadeumcontraste,pois:

258 Estatísticadecodificada

C = a1µ1 + a2µ2 + ... + aI µI = I i=1 aiµi

, sendoque I i=1 ai =0.

=(µ1 + µ3) (µ2 + µ4)

ˆ C ˆ Var( ˆ C) ∼ tν emque

Var( ˆ C)= Var(a1 ˆ µ1 + a2 ˆ µ2 + ... + aI ˆ µI )= I i=1 a2 i ri σ 2 i Eemcasodehomocedasticidade σ 2 1 = σ 2 2 = ... = σ 2 I = σ 2 edeexperimentobalanceadoemrelaçãoaonúmeroderepetições, r1 = r2 = ... = rI = r então, Var( ˆ C)= σ2 r I i=1 a 2 i

ν éonúmerodegrausdeliberdadedoresíduodaanálisedevariância,e

Análisedecovariância

Algunsexperimentosrequeremoajustedosefeitosdetratamentossobreavariável resposta Y apartirdoefeitodeumaoumais covariáveis quantitativas X

Considere,porexemplo,umexperimentorealizadoemcampodeprodução desojaparacomparaçãodediferentestecnologiasdepulverizaçãodedefensivos agrícolas.Consideremosavariávelrespostacomoauniformidadedeaplicação.A áreaexperimentalpodeser,seconveniente,divididaemblocosparacontroledoerro experimental.Mas,aindaassim,podeserqueavelocidadedoventosejadiferente nomomentodaaplicaçãodeparcelasdeummesmobloco,oquepoderiacausar umafonteadicionaldeerroexperimentalpeloefeitodaderiva,quepodealterara resposta.Nãoobstante,tendo-seanotadoavelocidadedoventonomomentode aplicaçãodecadaparcela,pode-seutilizá-lacomo covariável,transformandoo modelodeanálisedevariâncianummodelode análisedecovariância.

Covariável,numaanálisedecovariância,podeserentendidacomoumfator quantitativoquepodeterefeitosobreavariávelresposta.Claro,podehavermais deumacovariávelsimultaneamentenummesmomodelo.Noexemploanterior, poder-se-iatambémconsiderarcomocovariáveisatemperaturaeaumidadedoar nomomentodaaplicação.

16.1 Exemplodeaplicação

Doisfungicidas(trt)foramavaliadosexperimentalmenteacampoemdelineamento inteiramentecasualizadocomaculturadasoja.Avariávelresposta(y)éo rendimentodegrãos,emsacas/ha.Ocorreque,porocasiãodaaplicaçãodos

16 Capítulo

fungicidas,asparcelasapresentavamdiferentesníveisdeincidênciaeseveridadeda doença.Assim,acovariável(x)representandoaáreafoliar(%) livre dadoença emcadaparcelafoitambémmensuradaparafinsdecontroleexperimental.O conjuntodedadoséancova.csv.

1 >soja <- read . csv ("https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / ancova.csv",colClasses= c ("factor"," numeric","numeric"))

2 >str(soja)

3 ’data.frame’:20obs.of3variables:

4 $ trt:Factorw / 2 levels "1","2":11111111...

5 $ x:num58.450.960.551.368.451.749.857.1...

6 $ y:num51.447.948.541.358.439.744.845.1...

Observeaseguirasmédiasderendimento.Há1.84sc/ha(110.4kg/ha)de diferença.Mas,pelaANOVA,essadiferençanãoédetectável,mesmonãohavendo problemascomospressupostosdomodelo.

1 > aggregate (y trt, data =soja,FUN= mean )

2 trty

3 1148.28

2250.12

Emboranãohajaefeitodostratamentosfungicidassobreacovariávelx,é razoávelsuporqueoefeito(τi)dosfungicidassobreosdadosderendimentode grãos(yij )sejainfluenciadopelovalordexnasrespectivasparcelas(xij ).Assim, deve-seincluirnomodeloestatísticoparaorendimentodegrãosoefeito(b)dessa covariável.

yij = µ + b(xij x)+ τi + ϵij

Notequetalmodeloéumamisturadosmodelosderegressãolinearede análisedevariância.Otermo b representaocoeficientederegressão,efeitolinear dexsobreyemambosostratamentos.Observequexécentradanamédia,para quesuainclusãonãoafeteaestimativadamédiageral µ.Observeoajustedo modelodeANCOVAnoR:

1 >mod <- lm (y I (x- mean (x))+trt, data =soja)

276 Estatísticadecodificada

7 AnalysisofVarianceTable 8 9 Response:y 10 DfSumSqMeanSqFvaluePr(>F) 11 trt116.9316.9280.53260.4749 12 Residuals18572.0731.782

5 6 > anova ( lm (y ~ trt, data =soja))

Experimentosmultifatores

Umfatorpodeserdefinidocomoaquiloquesupostamenteafetaarespostaouaquilo quesequerestudar,nocasodeumfatordetratamento.Osníveisdeumfator correspondemaosvaloresqueeleassume.Ensaiosenvolvendoapenasumfatornão permitemestudarasinteraçõesquepodemexistirentreosfatores.Porexemplo, emestudosdeadubaçãooucalagem,éesperadoquehajamdiferençasnasrespostas obtidascomasdosesdeacordocomalâminadeirrigaçãoaplicada.Assim,dose elâminaseriamdoisfatoresdetratamentoaseremestudadossimultaneamente nummesmoexperimento.Logo,chamamosdeexperimentosmultifatoresaqueles emqueseestudaoefeitodedoisoumaisfatoressimultaneamente.

17.1 Estruturasdosfatores,tiposdeefeitoeinteração

Umfatorpodeserdotipoqualiouquantitativo,havendodiferençasnaformade estudodessefator.Nãoobstante,hádoistiposdeestruturaderelacionamento entrefatores:

• Estruturacruzada:quandoosníveisdeumfatorsãosempreosmesmospara todososníveisdosoutrosfatores.Éocaso,porexemplo,deexperimentos decomparaçãodeummesmogrupodecultivares(fator1)emdiferentes locais(fator2).

• Estruturaaninhadaouhierárquica:quandoosníveisdeumfatorvariam deacordocomosníveisdosoutrosfatores.Éocaso,porexemplo,de

17 Capítulo

umexperimentodeavaliaçãodedoses(fator1)deprodutos(fator2)com ingredientesativosdiferentesparaumamesmafinalidade.

Observequeumexperimentomultifatorpodeconterfatorescomumoucom osdoistiposdeestrutura.

Experimentosmultifatorescomestruturacruzadapermitemoestudodedois tiposdeefeito:

• Efeitoprincipal:trata-sebasicamentedavariaçãoentreasmédiasdosníveis deumfator,desconsiderandoosníveisdosoutrosfatores.

• Efeitodeinteração:refere-seàinfluênciadeumníveldeumfatorno comportamentodosníveisdosdemaisfatores,ouseja,adependênciaentre fatores.

Veremosprimeiramentecomoestudargraficamenteoefeitodainteração. Depois,porocasiãodaanálisedevariância,veremosotesteparaainteração.Para isso,considereumexperimentodefertilizaçãocom vinhaça emcana-de-açúcar.

Foimedidaaproduçãode3variedades,cadaumasoboefeitode4doses(L/ha) devinhaça,em3blocoscasualizados.Oconjuntodedadosévinhaca.csv(Cap. 7).

Comafunção ordered() estamoscriandoumacolunaadicional vinhacaf transformandoacolunaemcategórica(fatorordenado),paraajustedomodelo considerandocontrastesdotipopolinomialparaofatorvinhaça.Comisso mantemosacoluna vinhaca comonuméricaparaserutilizadanoajustede modelosderegressão.

1 >cana <- read csv ("https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / vinhaca.csv")

3 >cana $ vinhacaf <- ordered (cana $ vinhaca)

4 >cana $ bloco <- as factor (cana $ bloco)

6 >str(cana)

7 ’data.frame’:36obs.of5variables:

8 $ variedade:Factorw / 3 levels "A","B","C":1231...

9 $ vinhaca:int000000000500...

10 $ bloco:Factorw / 3 levels "1","2","3":1112...

11 $ producao:int69657166677368647072...

12 $ vinhacaf:Ord. factor w / 4 levels "0"<"500"<"1000"<...

Umestudoinicialdainteraçãoéfeitodispondonoplanobidimensionalas médiasdeproduçãodascombinaçõesdedoseevariedade,oquechamamosde gráficodeinteração (Figura 17.1).

282 Estatísticadecodificada

Gruposdeexperimentos

Noisolatedexperiment,howeversignificantinitself, cansufficefortheexperimentaldemonstration ofanynaturalphenomenon[...]

–Fisher

Naexperimentação,nãoraramenteocorreainstalaçãodeexperimentosemvários locais,épocasouemdeterminadascondiçõesedafo-climáticas,visandoauma maiorabrangênciadasconclusõesobtidas.

Evidentemente,resultadoslocais,istoé,paracadaambiente,podemserobtidos analisandoindividualmenteosdadosdecadaexperimento.Entretanto,tantona áreaanimalquantonavegetal,aanáliseconjuntadeexperimentosédegrande importância,também,paraaquantificaçãoda interaçãoGenótipoxAmbiente. Nomelhoramentogenéticovegetaléparticularmenteimportanteparaanálisesde adaptabilidadeeestabilidadedegenótipos,ouemensaiosdeVCU(valordecultivo euso).Nãoobstante,aanáliseconjuntapodetambémsermuitoelucidativa emestudosdeavaliaçãodeagroquímicosoudefensivosemdiferentescondições ambientais.

Umaspectoimportantequedeveserlevadoemconsideraçãoéacorreta definiçãodotipodeefeitodosfatoresemestudo,sedeefeitofixooualeatório.Os efeitosdosníveisdeumfatorpodemsertratadoscomovariáveisaleatórias,desde quesejaplausívelconsiderarosníveisdetalfatorcomoumaamostraaleatóriade umapopulaçãodeníveise,assimsendo,seriarazoávelassumirumadistribuição deprobabilidades.Nessecaso,asconclusõesdapesquisasãoválidasparatodaa população,nãosóparaosníveisamostrados.Emcontrapartida,osníveisditos

Capítulo

fixossãoconvenientementeescolhidospelopesquisador,easconclusõessãoválidas somenteparaessesníveis.

Noprimeirocaso(efeitoaleatório),oobjetivodapesquisaéaestimaçãode componentesdevariânciae/oucovariância,podendo-seaindafazerinferências acercadestes.Nosegundocaso(efeitofixo),osobjetivosdapesquisalimitam-se àestimaçãodeparâmetrosecomparaçãodosefeitosdaquelesníveisensaiados, sendoasinferênciasfeitasapenasaosefeitospopulacionaisdaquelesníveis.

Assim,nosexperimentosondeosambientessãodiferenteslocais,aleatoriamenteselecionadosdeumaregiãodeinteresse,osefeitosdesseslocaisdevemser consideradosaleatórioseasconclusõesserãoexpandidasparaaregião.Poroutro lado,seoslocaisnãorepresentamtalregião,seusefeitosserãoconsideradosfixos.

Éimportantesalientarqueadecisãodeconsideraroefeitodeambiente (experimento)comofixooualeatóriodependedoobjetivodapesquisae,uma veztomadaadecisão,diferentesprocedimentosinferenciaisdevemserfeitospara responderaesseobjetivo.

Particularidadesrelacionadasamodeloscomefeitosaleatóriosserãoabordadas umpoucomaisnocapítulodemodelosmistos.

18.1 Critériosdeagrupamento

Umavezobtidososdados,oagrupamentodosexperimentosparaumaanálise conjuntapoderáobedeceradiferentescritérios,inclusiveaquelesutilizadosna repartiçãodosexperimentos,taiscomo:

• Setoresgeográficos.

• Tipodesolo.

• Época.

Outrotipodecritérioéodeagruparexperimentossegundoaafinidadea algumacaracterísticadeinteresse.Porexemplo,experimentoscomprodutividades acimadeumvalorpre-fixadopodemseranalisadosconjuntamente.

Pode-seaindaagruparexperimentospelaordemdegrandezadosquadrados médiosdosresíduosdasanálisesdevariânciaindividuais.Demodoqueexperimentosqueapresentemvariânciasresiduaissemelhantespodemseragrupados semmaioresprejuízosàsconclusões.Estatisticamente,umcritériointuitivoseria calculararazãoentreomaioreomenorquadradomédiodoresíduo,digamos QMres1 e QMres2,respectivamente,obtendo

304 Estatísticadecodificada

Modeloslinearesgeneralizados

[...]Asecondprinciple(whichappliesalsotoartists!) isnottofallinlovewithonemodel toexclusionofalternatives.

–McCullagh&Nelder,1989

Aseleçãodemodelosestatísticoséumaparteimportantedetodapesquisaque envolvemodelagemebuscadeummodelotãosimplesquantopossíveleque descrevatãobemquantopossíveloprocessogeradordosdados.Noscapítulos anteriores,vimoscomomodelarumavariávelresposta Y emfunçãodefatores quantiequalitativosatravésdeumaabordagemclássica,considerandodistribuição normal,homogeneidadedevariânciaseoutraspressuposições,que,quandonão verificadas,podempromoverinferênciaspoucoconfiáveis.

Ocorreque,muitasvezes,époucorazoávelassumiradistribuiçãonormal.É ocaso,porexemplo,quandodarealizaçãodeensaiosdotipodose-respostaem experimentosentomológicos,emquedecadaunidadeexperimentaléobservadoo númerodeinsetosmortos/vivosapóssubmetidosaoefeitodeinseticidas.Ora, paraessetipodevariável,provavelmenteumacontagembinomial,assumira distribuiçãonormalpodenãoserapropriado.Percebaqueadistribuiçãobinomial implicaassumirqueavariânciadeumaobservação V (yi) estárelacionadacom média E(yi),oquesignificapermitirlidarcomheterocedasticidade.

Tambémnãoégarantidoqueousodetransformaçõesnavariávelresposta, comoraizquadradaouasdotipopotênciaótimadeBox-Cox,porexemplo, venhaaproximardanormalidadee/ouestabilizarasvariâncias.Alémdisso,

19 Capítulo

transformaçõesapresentamoinconvenientedealterarosignificadodavariável resposta.

Namaioriadosestudosobservacionaisouexperimentais,asvariáveisrespostaassumemapenasvalorespositivos(massa,volume,área,comprimentoetc.). Nãoraramente,adistribuiçãodeprobabilidadesdessasrespostaséassimétrica, diferentementedanormal.

Emcasoscomoosapresentados,convémoajustedemodeloslinearesgeneralizados(doinglês, GLM–generalizedlinearmodels),umaextensãodosmodelos clássicosderegressãounivariadacomaqualépossívelassumirumadistribuição condicionalapropriada,incluindoanormal,paraavariávelresposta.

MLGéumateoriaunificadoradeváriastécnicas,taiscomoregressão logito (oulogística), probito,regressãoPoissoneoutras.

AexigênciaquefaremosaquiparaoajustedeumMLGéque n observações independentessejamtomadasdeumavariávelrespostacujadistribuiçãode probabilidadespertenceà famíliaexponencialdedistribuições,comoapresentada noiníciodolivro.

19.1 Definição

UmMLGéajustadoparadescreverumarespostaunivariada Y associadaaum conjuntodevariáveisexplanatórias X linearmentecombinadas,constituindoo modelo

i β)+ ϵi

sendo µi ovaloresperadopelomodeloparaaobservação yi, g( ) umafunçãocuja inversaexiste, ηi éoresultantedacombinaçãolineardasvariáveisexplanatórias cujosefeitossãoquantificadospelosparâmetros β; ϵi éoerroaleatórioassociado a yi

ObomajustedeumMLGdependedadefiniçãoadequadadotrinômio: componentealeatório, componentesistemático e funçãodeligação.

O componentealeatório representaoconjuntode n observaçõesindependentesdavariávelaleatória Y , y1,y2,...,yn,obtidasdeumamesmadistribuição pertencenteàfamíliaexponencial.Essecomponenteéespecificadoassimqueé definidaarespostaaseranalisada,quepodesercontínuaoudiscreta.Sãocomuns

314 Estatísticadecodificada

yi = µi + ϵi = g 1(ηi)+ ϵi = g 1(x⊤

Modeloslinearesmistos

Allmodelsarewrong,butsomeareuseful.

Emmodelosestatísticososfatorespodemserdeefeitofixooualeatório,adepender doobjetivodoestudo.Umfatoréditodeefeitofixoquandoseusníveissão selecionadospropositalmenteparaseremavaliadosexperimentalmente.Poroutro lado,osníveisdeumfatordeefeitoaleatóriosãoaleatoriamentetomadospara comporumaamostradeumapopulaçãodeníveis.

Modelosquepossuemapenasfatoresdeefeitofixosãochamadosde modelos fixos.Osquepossuemapenasfatoresdeefeitoaleatóriosãoos modelosaleatórios. Eosquepossuemambosostiposdeefeitosãoos modelosmistos.Umexemplo simplesecomumdemodelomistoéomodelodeanálisedevariânciapara odelineamentodeblocoscompletoscasualizados(DBC),emqueoefeitode tratamentoséfixoeodeblocoséaleatório,umavezqueafunçãodesteséde controleambiental,comseusníveisrepresentandoumaamostradoambiente.

Modelosdeefeitosmistospodemacomodarheterogeneidadedevariâncias relacionadaafatoresexperimentais,bemcomoestruturasdecorrelaçãorelacionadasamedidasrepetidas,dependênciatemporale/ouespacial.Podemser especialmenteúteisparaacomodardependênciagenéticaentreindivíduospor meiodeumamatrizdeparentesco.

Porocasiãodaanáliseconjuntadeexperimentosconduzidosemambientes distintos,podehavervariabilidademuitodistintaentreosambientes,oquetraria

Capítulo

–GeorgeBox

algumadificuldadeparaaanáliseconjunta.Nãoobstante,ummodelomistocom efeitoaleatóriodelocalécapazdeacomodaressacondiçãodeheterocedasticidade.

20.1 Formulação,estimaçãoeinferência

Considereomodelolinearespecificadonaformamatricial:

y = Xβ + Zu + ϵ

emque y éovetordeobservaçõesdavariávelresposta, X éamatrizdedelineamentodosfatoresdeefeitofixo, β éovetordeparâmetrosdosefeitosfixos, Z é amatrizdedelineamentodosfatoresdeefeitoaleatório, u éovetordeefeitos aleatóriosdesconhecidos, ϵ éovetordeerrosaleatórios.

Ovetor u éassumidoterdistribuiçãonormaldemédiazeroematrizde covariância G; ϵ éassumidoterdistribuiçãonormaldemédiazeroematrizde covariância Σ; u e ϵ sãosupostosseremindependentes.

Asmatrizes G e Σ permitem,aomenosteoricamente,queomodelocapture qualquertipodeestruturadeheterocedasticidadee/oudedependêncianosdados y;diferentementedomodelolinearclássico y = Xβ + ϵ,emqueseassume variânciaconstanteeausênciadecorrelaçãoem ϵ.Algunstiposcomunsde estruturadecovariânciapara G são:nãoestruturada(maiscomplexa),simetria composta,autorregressivaeespacial.Oleitorpodeconsultaraseção11.8.2,onde sãomostradosalgunsdessestipos.

Considere,porexemplo,omodelodeANOVAdoDBC,comovistoanteriormente: yij = µ + τi + bj + ϵij

Considerando-oummodelofixo,istoé,comambostratamentoseblocosde efeitosfixos,ecom ϵij ∼ N (0,σ2),tem-se:

Var(yij )= Var(ϵij )= σ 2

Masconsiderandoefeitofixodetratamentoeefeitoaleatóriodeblocos,com bj ∼ N (0,σ2 b ) e ϵij ∼ N (0,σ2),sendoambosindependenteseidenticamente distribuídos,

Var(yij )= Var(bj + ϵij )= Var(bj )+ Var(ϵij )= σ 2 b + σ 2

equeacovariânciaentreduasobservações(i e i′)nummesmobloco j é

352 Estatísticadecodificada

UM SARAU DE METODOS E MODELOS PARA ANALISE ESTATISTICA DE DADOS DE EXPERIMENTOS.

Inteiramente exemplificado e ilustrado, com aplicações em R. Leitura essencial para pesquisadores das ciências da vida; material paradidático indispensável a estudantes de pós-graduação e graduação. A cada capítulo o leitor é ainda agraciado com um Jupyter notebook pronto para execução em nuvem dos exemplos resolvidos, com total liberdade para checar resultados, modificar comandos e finalmente decodificar os métodos estatísticos.

Estatística Decodificada

Anderson Rodrigo da Silva

ESTATISTICA DECODIFICADA

Introduçãoàprobabilidade

1.1 Noçõesdeconjuntos

Propriedadesdosconjuntos

Variáveisaleatórias

2.1 Variávelaleatóriadiscreta

Distribuiçõesdeprobabilidade

3.1 Modelosdiscretos

Distribuiçãouniformediscreta

Médiaevariância

Aplicações

DistribuiçãoBernoulli

Aplicaçõesdaverossimilhança

4.1 Métododamáximaverossimilhança

Ométododelta

5.1 Definição

5.2 Exemplosdeaplicação

Obootstrap

6.1 Definição

Conjuntosdedados

Dados‘batata’

Dados‘pareada’

Importaçãoeexportaçãodedadosno R

8.1 Importaçãodedados

Análiseexploratóriadedados

9.1 Distribuiçãodefrequências

Exemplo

Densidade kernel

Introduçãoaostestesdehipóteses

10.1 Exemplodeintrodução

Covariânciaecorrelação

11.1 CovariânciaecorrelaçãodePearson

Regressão

12.1 Regressãolinearsimples

Ométododosmínimosquadrados

Análisederesíduos

13.1 Resíduosordinários

Exemplo

Análisedevariância

14.1 Nutsandbolts

Comparaçõesmúltiplasdemédias

15.1 Teste t paracontrastes

Análisedecovariância

16.1 Exemplodeaplicação

Experimentosmultifatores

17.1 Estruturasdosfatores,tiposdeefeitoeinteração

Gruposdeexperimentos

18.1 Critériosdeagrupamento

Modeloslinearesgeneralizados

19.1 Definição

Modeloslinearesmistos

20.1 Formulação,estimaçãoeinferência

UM SARAU DE METODOS E MODELOS PARA ANALISE ESTATISTICA DE DADOS DE EXPERIMENTOS.