Anderson Rodrigo da Silva



Estatística decodificada
© 2023 Anderson Rodrigo da Silva
Editora Edgard Blücher Ltda.
Publisher Edgard Blücher
Editor Eduardo Blücher
Coordenação editorial Jonatas Eliakim
Produção editorial Ariana Corrêa
Revisão de texto Maurício Katayama
Capa Leandro Cunha
Imagem da capa David Neri, Anderson Rodrigo da Silva
Rua Pedroso Alvarenga, 1245, 4º andar 04531-012 Săo Paulo – SP – Brasil Tel.: 55 11 3078-5366 contato@blucher.com.br www.blucher.com.br
Segundo o Novo Acordo Ortográfico, conforme 6. ed. do Vocabulário Ortográfico da Língua Portuguesa, Academia Brasileira de Letras, julho de 2021.
É proibida a reproduçăo total ou parcial por quaisquer meios, sem autorizaçăo escrita da Editora.
Todos os direitos reservados pela Editora
Edgard Blücher Ltda.
Dados Internacionais de Catalogação na Publicação (CIP) Angélica Ilacqua CRB-8/7057
Silva, Anderson Rodrigo da Estatística decodificada / Anderson Rodrigo da Silva. - São Paulo : Blucher, 2023. 418 p. : il.
Bibliografia ISBN 978-65-5506-357-8
1. Estatística I. Título
22-6934
1. Estatística
Índice para catálogo sistemático:
CDD 310
Umcasaltemdoisfilhos.Qualéaprobabilidadede:Oprimogênitoserhomem? Osdoisfilhosseremhomens?Pelomenosumdosfilhosserhomem?Ateoriadas probabilidadesnosforneceferramentasnãosópararesponderataisquestões,mas também,eprovavelmentedeformamaisrelevante,paraaconstruçãodemodelos estatísticosrelacionadosafenômenosaleatóriosdeinteresse.Porexemplo,um pesquisadorinteressadoemcompreendercertofenômenobiológicopodeutilizarsedemodelosprobabilísticosparadescreverocomportamentodosseusdados amostraise,assim,fazerinferências,istoé,fazerafirmaçõessobreapopulaçãoda qualretirouaamostra.
Antesdeformaroconceitodeprobabilidadeéplausívelfazerumaintroduçãoà teoriadosconjuntos.
Umconjuntoéumacoleçãobemdefinidadeelementos.Porexemplo: A :
• União: A ∪ B = {w ∈ Ω: w ∈ Aouw ∈ B} (w ocorreempelomenosum deles)
• Intersecção: A ∩ B = {w ∈ Ω: w ∈ Aew ∈ B} (w ocorreemambos)
• Diferença: A B = A ∩ Bc = {w ∈ Ω: w ∈ Aew/ ∈ B} (w ocorresomente em A)
O DiagramadeVenn éumrecursográficoquepodetrazerbastanteauxílio quandodasoperaçõescomconjuntos.Afigura 1.1 ilustracadaumadasoperações citadas.Aregiãosombreadarepresentaoconjuntosobexame.
• Comutativa: A ∪ B = B ∪ A, A ∩ B = B ∩ A
Emexperimentosaleatórioscujoespaçoamostralcontémalgunseventosde interesseé,emgeral,maisfácillidarcomoumavariávelaleatória,istoé,émais fácilsumarizarainformaçãodoespaçoamostralemvaloresassociadosaeventos. Porexemplo,emumestudoecológicopodehaverointeresseemdeterminarsecerta espécievegetalestáounãopresenteem n locaisdeumcontinente.Atribuindo1 àpresençae0àausência,oespaçoamostralteria 2n elementos.Nãoobstante, seainformaçãodeinteresseforonúmerodelocaisquecontêmaespécie,então poderiaserdefinidaavariável X representandoonúmerodelocaisondeaespécie estápresente,captandoassimaessênciadoproblema.
Emoutroexemplo,tomeoatodeidentificarosexodeduascriasdeumaégua comosendoumexperimentoaleatório.Oespaçoamostralassociadoédefinidopor S = {MM,MF,FM,FF }.Seja X avariávelaleatóriaquerepresentaonúmero demachosobtidosnasduascrias.Tem-seentão: X(MM )=2, X(MF )=1, X(FM )=1 e X(FF )=0.
Aoespecificaraquantidade X,definimosumatransformaçãoapartirdecada elementopertencenteaoespaçoamostral S paraumnovoespaçoamostral ℜ,um conjuntodenúmerosreais(noúltimoexemplo,osvalores:0,1e2).Essafunçãoa partirdoespaçoamostralnosreaiséoquechamamosde variávelaleatória,como ilustraaFigura 2.1.
Probabilidadespodementãoserassociadasaosvaloresouintervalodevalores deumavariávelaleatória,constituindoassimadistribuiçãodeprobabilidades dessavariável.Muitasdastécnicasestatísticassãobaseadasemmodelosde distribuiçãodeprobabilidades,osquaispodem,obviamente,serutilizadospara
Figura2.1: Ilustrandoadefiniçãodevariávelaleatória,funçãocomdomínioem S e contradomínioem ℜ
calcularprobabilidadesdeinteresse.Umexemploclássicodessaaplicaçãoéo cálculodovalor-p nostestesdehipóteses.
Ousodevariáveisaleatóriasequivaleadescreverosresultadosdeumexperimentoaleatóriopormeiodevaloresnuméricosemvezdepalavras,oquenos permiteumtratamentomatemático.
Umavariávelaleatóriaquantitativapodeser discreta ou contínua.
Umavariávelaleatória X éconsideradadiscretaseoconjuntodevaloresdessa variável,seu espaçoamostral,forenumerável.Emgeral,osvaloresassumidossão númerosinteiros,porexemplo:númerodeanimaisdoentes,númerodeinsetospragaporplanta,tamanhodaleitegadaetc.
Adistribuiçãodeprobabilidadesdeumavariávelaleatóriadiscreta X podeser caracterizadapelasua funçãodeprobabilidade (f.p.),demodoqueaprobabilidade de X assumirumcertovalor x édeterminadapelaf.p.,denotadapor PX (X = x) ousimplesmente PX (x).
Afunção PX éditaf.p.de X seesomentesesatisfizer:
1. PX (X = x) ≥ 0 ∀ x;
2. x PX (X = x)=1
Formalmente,denominamos distribuiçãodeprobabilidadesdav.a.d. acoleção depares[xi,PX (xi)], i =1, 2,...,n,quepodeserapresentadapormeiodetabelas ougráficos.
Revisitandooexemplodasduascriasdeumaégua,poderíamosdefinira seguintedistribuiçãodeprobabilidadesdavariáveldiscreta X (númerodemachos):
AuchderZufallistnichtunergründlich, erhatseineRegelmäßigkeit.
–GeorgvonHardenberg
Adistribuiçãodeprobabilidadesdeumavariávelaleatóriaéumadescriçãodas probabilidadesassociadasaosvaloresouintervalosdevalorespossíveisdessa variável(Montgomery&Runger,2008).Umavariávelaleatóriaécompletamente caracterizadapelasuadistribuiçãodeprobabilidades(Ceconetal.,2012).
Osmodelosdedistribuiçãopermitemnãosóocálculodeprobabilidades,mas tambémadeterminaçãodemedidascomomédiaevariânciadessavariável,sejaela dotipo discreta ou contínua.Taismodelossãofunçõesdeumoumaisparâmetros, istoé,quantidadespopulacionaisquenospermitemvariarcertascaracterísticas dadistribuição(Casella&Berger,2002).
Aescolhadeummodelodeprobabilidadesapropriadoparaosdadospode serdemuitaimportânciaemmétodosinferenciais(e.g. testesdesignificância), podendoalterardrasticamenteasconclusõessobreoestudo.
Algunsdosprincipaismodelos,discretosecontínuos,deprobabilidadesão apresentados.AlgumasdicascomputacionaissãodadasparaestudodasdistribuiçõescomosoftwareR.Paramaisdetalhessobreasimplementaçõesdisponíveis, execute help(Distributions).
Umavariávelaleatóriadiscreta X terádistribuiçãouniformediscretasetodos osseus N valores x1,x2,...,xN foremequiprováveis.Então,asuafunçãode probabilidadespodeserassimrepresentada:
PX (X = xi|N )= 1 N ,i =1, 2,...,N
emque N éoparâmetrodadistribuição.Utiliza-seanotação: X ∼ Ud(N ). Éimportanteressaltarqueosvaloresqueessavariávelpodeassumirnão necessariamentetêmquesernúmerosinteiros,maspodemserqualquernúmero real,desdequeaquantidadedessesvalores(N )sejafinita.
Se X ∼ Ud(N ) comvaloresnointervalo [a,b], a ≤ b,entãoamédiaeavariância dadistribuiçãosãodadaspor E(X
Oconceitodevaloresequiprováveis,istoé,comamesmaprobabilidadedeocorrência,ébastanteusadoemestudosde distribuiçãoempírica deprobabilidadese emestudosdereamostragem,talcomoatécnicabootstrap(Efron,1979),naqual cadaumdos n valoresdaamostratomaaprobabilidade 1/n deocorrência.
Umavariávelaleatória X seguedistribuiçãoBernoullisesuafunçãodeprobabilidade.puderserassimrepresentada:
PX (X = x|π)= π x(1 π)1 x,x =0, 1
emque π ∈ [0, 1] éoúnicoparâmetrodadistribuiçãoerepresentaaprobabilidade de sucesso (X =1).Logo,ocomplemento 1 π representaaprobabilidadede fracasso (X =0).
C’estunevéritétrèscertaineque,lorsqu’iln’estpas ennotrepouvoirdediscernerlesplusvraiesopinions, nousdevonssuivrelesplusprobables.
Suponhaqueosdados x aseguircomponhamumaamostradetamanho n =15 de umavariávelaleatóriadiscreta X querepresentaonúmerodeninfasdecigarrinhadas-raízes(Mahanarvafimbriolata)porparceladecana-de-açúcar.Umgráfico (Figura 4.1)foiconstruídoparailustraradistribuiçãodefrequências.
Dadaanaturezadacontagem X,consideremosrazoávelassumiradistribuição Poissoncomparâmetro λ,emque:
Masqualseriaovalorapropriadocomoestimativade λ,ataxadeocorrência doinseto-praga?Oumelhor,dequeformaépossívelobterumaestimativa ˆ λ adequadaparaquepossamosutilizaromodeloPoissonparacalcularprobabilidades efazerinferências?
Responderemosasperguntasatravésdeumatécnicaholísticadeestimação deparâmetros,conhecidacomo métododamáximaverossimilhança-MMV (em inglês, maximumlikelihoodmethod-MLM).Paratal,saibamosantesoque significa verossimilhança emtermosestatísticos.
Parafinsdidáticos,considereumsubexemplo(n =3),oumesmoumanova amostraqualquer, x =(x1 =7,x2 =6,x3 =6) Suponha asprobabilidades P (x1)= 1 5 , P (x2)= 1 4 e P (x3)= 1 4 .Agorapergunte-se:–Qualéaprobabilidade deseobter x1 =7 e x2 =6?Resposta:se x1 forindependentede x2,entãoa probabilidadeé 1 5 × 1 4 = 1 20 .–Agoraqualseria aprobabilidadedeseobtera amostra x daformacomoelaseapresenta? Resposta:seoselementosforem todosindependentes,similarmente,tem-se: 1 5 × 1 4 × 1 4 = 1 80 .Édesseconceito quesurgea funçãodeverossimilhança.Mas,emvezdesimplesmente“supor” probabilidadesparaos xi,utiliza-seum modelo paracalcularasprobabilidades.
Percebeuqueapalavra“independência”foimencionadamaisdeumavez?
Guarde-a.Essaéumasuposiçãofrequenteemdiversosmodelosemétodos estatísticos,muitosdelesapresentadosnaparteIIdestelivro.
Afunçãodeverossimilhança L éobtidaatravésdafunção(oumodelo)deprobabilidade(oudensidadedeprobabilidade,casoavariávelsejacontínua)assumida, PX ,aplicadaaosdadosamostraisobservados xi (i =1, 2,...,n),istoé,aresultante doprodutório
Considerecomovariáveisaleatóriasos p componentesdovetor ˆ θ =( ˆ θ1,..., ˆ θp) deestimadoresnãoviesadosde θ,istoé, E( ˆ θ)= θ,podendo,inclusive,ter sidoobtidosatravésdo métododamáximaverossimilhança-MMV.Considere Σ comosendoamatrizde(co)variânciasde ˆ θ.Agorasuponhaqueointeresse estejanãoem ˆ θ diretamente,masnumafunçãonãolinear1,diferenciável,desses estimadores, f ( ˆ θ).Ora,ésabidoqueoMMVforneceestimadoresquepossuemo chamado princípiodeinvariância,demodoque f ( ˆ θ) tambéméumaestimadorde máximaverossimilhança.Noentanto,enquantoérelativamentesimplesobteruma estimativade Σ atravésdainformaçãodeFisher(tambémvistaanteriormente), obterumaestimativadevariânciade f ( ˆ θ) nãoétarefatãosimples.Nessecaso, pode-selançarmãodo métododelta
AtravésdeaproximaçõespelasériedeTaylordeprimeiraordem,o método delta permiteobterumaestimativadavariânciadeumafunçãonãolinearde variáveisaleatóriascommatrizde(co)variâncias(supostamente)conhecida Σ. Comisso,percebaqueépossívelrealizarinferências(testesdehipóteses,intervalos deconfiançaetc.),eissoéfeitoassumindodistribuiçãonormalpara ˆ f ,commédia f evariância:
1Parafunçõeslineares,aplicam-seaspropriedadesdeesperançadevariáveisaleatórias.Por exemplo: Var(aX ± bY )= a 2Var(X)+ b2Var(Y ) ± 2abCov(X,Y ).
istoé,ovetortranspostodegradientesouderivadasparciaisdeprimeiraordem de f emrelaçãoacada ˆ θi (i =1, 2,...,p).
Naformaunivariada,istoé,emque ˆ θ representaumavariávelaleatóriacom variânciaconhecida σ2,aaproximaçãodavariânciade f
fica:
Adistribuiçãoassintoticamentenormalesperadapara
f ,estimadodeuma sequênciade n variáveisaleatóriasassumidasnormais,implicaem
Aseguirsãomostradasaplicaçõesdométodoparaobterumaaproximaçãode variância.Noentanto,ométododeltatemoutrasaplicações,sendoumadelas paracorrigiroviésdeestimadores,porexpansãodasériedeTayloratésegunda ordem.
HánoRimplementaçõesdométododelta,comoa deltaMethod() dopacote car (Fox&Weisberg,2011).Apenasporquestõesdedidáticasseráinicialmente exemplificadoaseguirofuncionamentodométodopassoapasso.
Exemplo1:Precisãodamédiagama
Sejamosdadosutilizadosnocapítuloanterior,
1 >x <- c (7,6,6,4,4,3,2,5,2,4,3,4,3,2,1)
paraosquaisassumimosdistribuiçãogama(α, β),cujasestimativasdeMVjá foramobtidas,assimcomoamatrizdecovariâncias.Recapitulando:
1 >negLogL <- function (pars)- sum ( dgamma (x,shape=pars[1], scale =pars [2], log =TRUE))
2 >emv <- optim ( par = c (a=6,b=0.7),fn=negLogL,hessian=TRUE)
3 >emv # estimativas de MV
Thebootstrap,theexistanceofthebootstrapmeansthat peoplewhoarethinkingupatalgorithms(estimators) don’thavetoworryaboutmathematicaltractability; theyaregoingtobeabletoevaluateitsaccuracy nomatterhowcomplicatedthealgorithmis.
Bootstrapemétododeltasãoduasnausquenavegampelomesmomar,enfrentam amesmaprocela,masseguemrotasdiferentesparaumdestinoemcomum.Quer dizer,semabusardaléxica,ambososmétodospodemseraplicadosparaobter umamedidadevariabilidadedeumestimadordeinteresse,cujasoluçãoanalítica, quandoexiste,mostra-sematematicamenteinviável.Ambosfornecemumamedida devariabilidadeaproximada.Adiferençabásicaéqueométododeltaoperasobre certascondiçõesparaoestimador–esteprecisaserumafunçãodiferenciável,eas inferênciassãofeitasassumindonormalidadeassintótica,enquantobootstrapé umatécnicamaisgeral,baseadaemreamostragem,nãonecessitandolidarcom diferenciaçãonemassumindomodelosdedistribuiçãodeprobabilidade.
Defato,bootstrapéumatécnicamajoritariamentenãoparamétrica,embora hajaversõesparamétricas.Podedesempenhardiversospapéiseminferência,além doqueéapresentadonestecapítulo.Umaaplicaçãofrequenteénaconstruçãode intervalosdeconfiançaparaalgumparâmetrooufunçãodeste.Ofuncionamento dobootstrapédealgumaformasimilaraoutratécnica,chamada jackknife
Nestecapítuloserãoapresentadasimplementaçõescomputacionaisdebootstrap nãoparamétrico,atítulodedemonstração,mastambémvisandoprovermais
autonomiaparaoleitoremfuturasaplicaçõesmenosconvencionaisdebootstrap. Nãoobstante,ousuáriodoRpoderáencontrarmaispraticidadecomospacotes bootstrap (Tibshirani&Leisch,2017)e boot (Canty&Ripley,2017).
ObootstrapfoipropostoporEfron(1979)comoummétodocomputacionalpara estimarodesviopadrãodeumestimador ˆ θ combaseemamostraaleatóriade dados,cujadistribuiçãodeprobabilidadepodeserconhecidaounão.Aestimativa dedesviopadrãonãoenvolvenenhumcálculoteórico,pormaiscomplicadoque possaser ˆ θ dopontodevistamatemático.Eénistoqueresideopoderda abordagembootstrap–nasuaadaptabilidadeaalgoritmoscomplexoseporser livredepressuposiçõescomonormalidade.
Bootstrapéummétododereamostragemcujaideiacentraléque,naausência dequalquerconhecimentosobreapopulação,adistribuiçãodevaloresemuma amostraaleatóriadetamanho n provenientedessapopulaçãoéomelhor“guia” paraadistribuiçãodosvaloresdapopulação.Emoutraspalavras,os n valoresda amostraobservados,cadaumcomprobabilidade 1 n ,sãousadospara“emular”a populaçãoapartirdereamostragem comreposição.
Considere ˆ F comosendoafunçãodedistribuiçãoempíricaobtidacoma amostra x =(x1,x2,...,xn),comprobabilidade 1/n paracada xi.Agoraconsidere aestatística(estimador)deinteresse ˆ θ = f (x),quepodeseramédia,amediana ououtrafunçãodosdados.Uma amostra ou reamostrabootstrap édefinidacomo umaamostraaleatóriademesmotamanho(n)daamostraoriginal.Denotamos x∗ =(x∗ 1,x∗ 2,...,x∗ n) aamostrabootstrap,istoé,cada x∗ consistedeumaversão aleatorizadadaoriginal x.Correspondenteacadaamostrabootstrap,háuma estimativa ˆ θ∗ = f (x∗).Especificamente,oalgoritmoparaobtençãododesvio padrãode ˆ θ é:
1. Daamostraoriginal,obtenha B amostrasbootstrap, x∗ 1, x∗ 2,..., x∗ B ,cada umadetamanho n,tomadascomreposição.
2. Avalieaestatísticadeinteresseemcadaamostrabootstrap ˆ θ∗ b = f (x ∗ b ),b =1, 2,...,B.
–Data!data!,hecriedimpatiently. –Ican’tmakebrickswithoutclay.
–ArthurConanDoyleTheAdventuresofSherlockHolmes
Estecapítuloédedicadoàapresentaçãodosconjuntosdedadosexperimentais utilizadosousugeridosaolongodasegundapartedolivro,bemcomoàformade acessoaeles.
Todososmateriaissuplementaresdestelivro,como scripts doRe,claro,os conjuntosdedados,estãodisponíveisemumrepositóriodeacessopúblicona plataforma GitHub,em: github.com/arsilva87/statsbook
Oleitorcuidadosoiráperceberquealgunsdadosnãoestãodisponíveisno repositório.Masissooufoiproposital,paraservirdeexercíciodetabulaçãoe importaçãodedados,ouporqueoconjuntodedadoséestruturalmentesimplese podeserfacilmentetransferidoparaoR.
Éimportantepercebertambémqueessesconjuntosdedadospodemedevem seranalisadoscomoutrosmétodos,alémdosqueestãosubmetidosnestelivro.Por exemplo,todososconjuntosdedadospodemserutilizadosparaajustesdeMLGs (Cap.19)emodelosdeefeitosmistos(Cap.20).Esseexercíciodeidentificação, escolhaeexploraçãodemétodoséessencialparaobomaprendizadoeparaa tomadadedecisãocombaseemresultadosdeanálises.
Aseguir,umabrevedescriçãodosdadosdecadaconjunto,nomedoarquivo, extensão,oscapítulosdolivronosquaiselessãoutilizadoseo QRcode contendo o link deacesso,permitindoimportaçãodiretanoR.
Dadosdeprodução(kg)detubérculosporparcela(unidadeexperimental)obtidos deumexperimentoemblocosaoacaso(DBC)cujostratamentossãoquatro cultivaresdebatata,comtrêsrepetições.Oscultivares1e3sãoresistentesa requeima,principaldoençadabatata,causadapeloagente Phytophthorainfestans.
NomeExtensãoCapítulos QRcode
batata.txt8,14e15
batata.xlsx8e16
Pré-visualização (6primeiraslinhas):
Experimentoemblocoscasualizadosemquecadaparcelatratadapossuisua respectivaparcelacomumatestemunha(nãotratada)pareada.Ostratamentos sãosolubilizadoresdefósforo.Avariávelresposta(resp)éamassaseca(kg)de plantasdemilho.
1 tratblocorespresp pareada
2 1T1137.6647.20
3 2T1242.2943.39
Nestelivro,tendoquerecorrerfrequentementeaosoftware R paraasanálisesestatísticas,emespecialdestasegundapartedolivro,nosseráoportunaaintrodução dasprincipaisformasdeimportaçãoeexportaçãodedadostabulados,comoéo casodosdadosexperimentais.
O R permiteimportararquivosemdiversosformatos,algunsuniversais,como.txt, .dat,.csv,eoutrosespecíficos,como.R,.rda,.rds.Paratal,háalgumasfunções principais.Ei-las:
• read.table() -paraleituradedadostabulados
• read.csv() ou read.csv2() -paraleituradedadostabuladosnoformato .csv
• readLines() -paraleituradaslinhasdeumarquivodetexto
• source() -paraleituradecódigosem R
Vejaquaisosargumentossãonecessáriosparautilizarafunção read.table(), porexemplo.Oudigite args(read.table)
Todasasfunçõesmencionadaspermitemaleituradedadosdaweb,sem anecessidadededownloaddoarquivoemsi.Paratanto,bastainformarno
argumento file oendereçoURLdoarquivo.Exemplo:oarquivobatata.txt(vide Capítulo7)podeserlidodiretamentedorepositóriowebpormeiode:
1 >batata <- read table ( file ="https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / batata.txt",header=TRUE, colClasses= c ("factor","factor","numeric"))
2 >batata
3 cultivarbloco prod 4 11150.9
5 21250.6
6 31351.2
7 42149.1
8 52249.3
9 62349.9 10 73149.9 11 83249.8 12 93349.5
13 104149.2
14 114249.1
15 124350.0
Notequeusamosoargumento header=TRUE.Issopermiteidentificara primeiralinhacomonomes(cabeçalho)dascolunas,nãodados.Jáoargumento colClasses permitequesejamdefinidasasclassesdecadacoluna;nocaso, cultivareblocosãodotipo factor,paraquesejamreconhecidascomocategóricas emvezdenuméricasououtrotipo.
Apósaimportação,éfortementeindicadoquesejafeitaumaanáliseda estruturadosdadosimportados.Pode-seutilizarocomando:
1 >str(batata)
2 ’data.frame’:12obs.of3variables:
3 $ cultivar:Factorw / 4 levels "1","2","3","4":111...
4 $ bloco:Factorw / 3 levels "1","2","3":12312...
5 $ prod :num50.950.651.249.149.349.949.9...
Comoquepercebemosqueoobjeto batata édaclasse data.frame,tendo12 observações(linhas)e3variáveis(colunas).Percebemosaindaquecadacolunaé classificadatambém.Acoluna cultivar,comovimos,édotipo factor com4 níveis(categorias).Temosalgosemelhantepara bloco.Issoédefundamental importânciaparaautilizaçãodessesdadosemalgumasanálises,comoaanálise devariância.Porfim,acoluna prod édotiponumérica.
Exploratorydataanalysiscannever bethewholestory,butnothingelsecan serveasthefoundationstone–asthefirststep.
–JohnTukeyAanáliseexploratóriadedadosdevesersemprefeitae,nãoraramente,podeser decisivanaescolhadeummétodoestatísticoinferencial.Aexploraçãodedadosé comumentefeitadasseguintesformas:i)estudodadistribuiçãodefrequências dosdados,ii)pormeiodemedidasdescritivasqueprocuramresumirainformação daamostra,eiii)pormeiosgráficos.
Algumasferramentasfrequentementeutilizadasparaoestudodedistribuiçãode frequênciassão:
• Gráficodebarras
• Gráficodepizzaoudesetores
• Diagramaderamos-e-folhas
• Histograma
• Densidade kernel
Emparticular,osdoisúltimossãoadequadosparadadosquantitaivos.Para tal,podemosutilizarasfunções stem() e hist().Adistribuiçãodefrequências devariáveiscategóricasouqualitativaséfeitacomosdoisprimeiros.Paraestes, algumasfunçõesúteissão: table(), barplot() e pie().
Utilizandoosdadoscamadassolo.csv(videCapítulo7),faremosodiagramade ramos-e-folhasdavariávelresistênciaàpenetração:
1 >solo <- read csv ("https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / camadassolo.csv",header=TRUE)
2 > stem (solo $ RP)
3
4 Thedecimalpoint is atthe|
5
6 0|47
7
1|0001445566668899
8 2|00000111112234455555667788999
9 3|000011222334444778
10 4|0002334446788
11 5|2277
12 6|25
PodemosobservarquehámaiorfrequênciadevaloresdeRPentre1e4Mpa. Poroutrolado,valoresdeRPacimade5MPasãopoucoprováveis.Useo comando hist(solo$RP) paraconstruirumhistograma.
Histogramassão,sim,amplamenteutilizadospararepresentaradistribuiçãodos dados,umavezqueelesdãoideiadaformadaverdadeirafunção f dedistribuição defrequênciadosdados.Contudo,histogramascomoestimadoresdedensidade podemsercriticados,principalmentepordesperdiçarpartedosdadosquando daformaçãodasbarrasdefrequência.Alternativasrobustassãoosgráficosde densidadekernel,osquaisestimam f porsuavização,levandoemcontacada observaçãodaamostra.
Seja x1,x2,...,xn umaamostradetamanho n deumavariávelaleatória X comfunçãodensidade f .Oestimadordedensidadekernelde f noponto x édado por:
Iftherewereaprobabilityofonly p =0 04 of findingacrockofgoldbehindthenexttree, wouldn’tyougoandlook? –GeorgeBox
NaparteIdestelivrovocêtevecontatocomalgumastécnicasdeinferência estatística,comoestimaçãodeparâmetrospelométododamáximaverossimilhança, métododeltaetestesdehipótesesdotiporazãodeverossimilhanças,ouainda pormeiodeintervalosdeconfiançabootstrap.Nestecapítulofaremosumpasseio brevepelosmétodosclássicosbásicosdetestesdehipóteses.
Ahipercalcemiaestárelacionadaaconcentraçãoelevadadepotássionoorganismo, causandofraquezamusculareatéparalisiaemequinos.Admitaqueemanimais saudáveisdeatéseismesesdeidade,aconcentraçãomédiadepotássioéde µ =4 2 mmol/Lsangue,comdesviopadrão σ =0.5 mmol/L.Noentanto,desconfia-sede quedeterminadadietaestápromovendosintomasdadoença.Umaprovafoifeita em n =10 animais,osquaisapresentarammédia x =4.6 mmol/L.Seráqueisso nosdáevidênciasdequeéprecisoreveraquantidadedepotássionadietaouesse resultadoépuroefeitodoacaso?
Essaquestãonosremeteaoconceitodedistribuiçãodeprobabilidadesdeuma variávelaleatória.Veja,nesteexemploaconcentraçãodepotássionosangueéa nossavariávelaleatória X.Comovamosnosateramétodosclássicosdetestesde
hipóteses,admitiremosque X temdistribuiçãonormal.Voltandoaoproblema, seosanimaisestiveremsaudáveis,érazoávelaceitarahipótesedequeamédia obtidaéresultadodoacasoapenas,istoé,pode-seafirmar
H0 : µ =4.2
Todavia,seamédiaamostralforconsiderada estranha osuficiente,entãoocorreto seriaadmitirahipótesealternativa
H1 : µ> 4.2
Observequefoiutilizadaapalavra estranha emrelaçãoàestimativa x =4.6. Defatoumtestedehipótesesconsisteemavaliara probabilidade deumaestimativa estar fora davariaçãoesperadaaoacaso.Éissoquechamamosde p-valordoteste.
Então,quandoestevalorésuficientementebaixo,significadizerqueosdados amostraisestãonosdandoevidênciapararejeitar H0,istoé,aestimativaobtidaé suficientemente estranha quandocomparadacomavariaçãoesperada.–Masqual seriaessavariaçãoesperada? Éjustamentepararesponderaessaperguntaque precisamosdomodelodedistribuiçãodeprobabilidadesde X,poiséelequem descreveessavariação.
Assumirque X éNormal(µ =4 2, σ =0 5),implicaemassumirqueamédia amostral x temtambémdistribuiçãonormal,commédia µx =4 2 edesviopadrão1
pois,setodasasobservações xi’sdaamostrasãoindependenteseprovenientesda mesmadistribuição,
Assim,sabendoadistribuiçãode x,podemosavaliarcomqualdasduas hipótesescondizmaisovalorobtidocomosanimaisdoestudo.Masobserveque, paraisso,precisamosavaliarcomoéadistribuiçãode x sobahipótesedequeos animaisestãosaudáveis,istoé,tendo H0 comoverdadeira.Issoémostradona Figura 10.1.
Percebaque,seosanimaisforemconsideradossaudáveis,entãoapenasem 100 × 0.0056=0.56% doscasosamédiaseriasuperiora4.6mmol/L.Ouainda que,em95%doscasos,ovalormédioseriadeaté4.46mmol/L.Estimativas
1Odesviopadrãodamédiaamostralétambémchamadode erropadrão.
Outrapartefundamentaldaanáliseexploratóriadedadoséoestudodemedidas deassociaçãoentrevariáveis.Alémdisso,aexistênciadeassociaçãoentrevariáveis respostaécondiçãofundamentalpararealizaçãodeanálisesmultivariadas,nosentidodequeinterdependênciaimplicaemnenhumganhoemrelaçãoàinformações obtidascommétodosunivariados.
Ograudeassociaçãolinearentrevariáveiséusualmentemedidopormeio dacovariânciaepormeiodecoeficientesdecorrelação.Sendoqueaprimeiraé afetadapelasunidadesdemedida,ascorrelaçõesnão.
Considereduasvariáveisquaisquer, X e Y .Acovariância Cov(X,Y ) éuma medidadograudevariaçãolinear conjunta entreessasvariáveis,ouseja,oquanto devariabilidadeelascompartilham.Noteque,seconsiderarmosasoma X + Y ,a variânciaé
AFigura 11.1 ilustraesseconceito.
Paraobteracovariânciaamostral,lembre-sedoestimadordavariânciaamostral enoteasemelhança.Analogamente,temos:
istoé,consistedamédiadosprodutoscruzadosentreos n paresdevalores amostrais x e y centradosnassuasmédias.
Jáimportamososdadoscamadassolo.csv(Cap.7)paraoobjeto solo efizemos attach(solo) para liberar ascolunascomovariáveisglobaisnamemóriadoR1 . CalcularemosacovariânciaentreasvariáveisUSeRPdaseguinteforma:
1 > cov (x=US,y=RP)
2 [1]-1.989888
comoquepercebemospelosinalnegativoquearelaçãoentreRPeUSéinversa. Noentanto,ovalor1.98nãotemdefatoumsentidoprático,jáqueconsistede umacombinaçãodeunidadesdemedidasdistintas:MPa × %,demodoquenão sabemosdefatoseessarelaçãoinversaentreasvariáveiséaltaoubaixa.Sabemos apenasque,quantomaioraumidadedosolo,menoraresistênciaapenetração.
Acorreçãodesteproblemavemcomumtipodepadronizaçãofeitanacovariância,dividindo-apeloprodutodosdesviospadrãodecadavariável.Observeque sRP édadoemMPae sUS édadoem%.Assim,oresultadodadivisãogeraum valoradimensional,entre-1e1,quenadamaisédoquea correlaçãoamostral ou, maisespecificamente,o coeficientedecorrelaçãodePearson.
Itisbettertobecontentwiththefractionof arightsolutionthantobeguileourselves withthewholeofawrongsolution.
–KarlPearsonAsimplescorrelaçãoentreduasvariáveisnãoforneceideiadecausaeefeitode umavariávelsobreoutra.Porexemplo,quantoseráamudançamédiaem Y quando X variaremumaunidade?Alémdisso,naanálisedecorrelaçãoambas asvariáveissãoconsideradasresposta,ouvariáveisaleatórias,oquenemsempre ocorre.Considere,porexemplo,umestudodedose-respostadeumfertilizante sobreaproduçãovegetal.Avariáveldoseéacontroladapelopesquisador,istoé, nãoéaleatória,massimumavariávelexplanatória1 cujoefeitosobrearesposta produçãoestásendoavaliado.
Vimosnocapítuloanteriorquearesistênciadosoloàpenetração(dadoscamadassolo.csv,disponíveisnoCap.7)apresentacorrelaçãolinearnegativacoma quantidadedeáguanosoloepositivacomadensidade.Faça:
1 > plot (RP DS, data =solo)
1Podemserconsideradostermossinônimos:variávelregressora,regressor,variávelpreditora, preditorouvariávelindependente.
Percebaquearelaçãoélinear.Ajustaremosentãouma retademínimos quadrados,istoé,ummodeloderegressãolinearsimplescujosparâmetros(b0 e b1)sãoestimados,comoserávistoaseguir,pelo métododosmínimosquadrados–MMQ.
yi = b0 + b1xi + ϵi
emque ϵi éoerroaleatórioouresíduoassociadoaobservação yi.Emgeral,para realizarinferênciassobreosparâmetros,assumimosdistribuiçãonormalparaos resíduos2 commédiazeroevariânciaconstante σ2 . Afunçãoaserchamadaéa lm() (de linearmodels).
1 >m1 <- lm (RP DS, data =solo)
2 >m1
3
4 Call :
5 lm ( formula =RP DS, data =solo)
6
7 Coefficients:
8 (Intercept)DS
9 -19.6213.49
Aestimativa ˆ b0 = 19.62 dointerceptonesseexemplonãopossuiinterpretação, poisomodelonãopassapelaorigemem x,istoé,osvaloresdedensidadedosolo (DS)analisadossãotodosmaioresquezero,demodoqueomodeloajustadosótem validadeparavaloresdeDSentre1.44e1.88kgm 3,quesão,respectivamente, omenoremaiordaamostra.Jáaestimativa ˆ b1 =13 49 indicaocoeficiente angular.Sendoestepositivo,aretaéascendenteou,ainda,significaqueestamos descrevendoumarelaçãopositivaentre x (DS)e y (RP).Emais,podemos interpretaressevalorcomosendoamudançaesperadaem y quando x variarem umaunidade.Ouseja,paracadaunidadededensidadedosoloqueseaumenta, háumaumento(vejaqueosinalde ˆ b1 épositivo)esperadode13.49MPana resistênciadosoloapenetração.
Adicionearetaaodiagramadedispersão(Figura 12.1)com:
1 > abline (m1, col ="blue")
Vocêpercebeuqueasestimativas ˆ b0 = 19.62 e ˆ b1 =13.49 fornecemoajuste “ótimo”dareta.Essecritériode otimalidade ébaseadonaminimizaçãodo
2Veremosmaisadiantecomochecaranormalidadedosresíduosetambémoutrasexigências domodelo,paraocasodesefazerinferências.
Apósoajustedeummodelo,éimportantechecaroseugraudeajusteaosdados. Emmodeloslinearesclássicos,algumasanálisespodemserrealizadassobreos resíduosordinários,comoocoeficientededeterminação.Contudo,hácertas limitaçõesnessetipoderesíduos,comoserávisto.Nãoobstante,outrostiposde resíduospodemedevemserpriorizadosparaseavaliaroajusteeainfluênciade observaçõesnoajustegeraldomodelo.
Apresençade ouliers,pontosdealavanca(leverage),aescolhainapropriada dosfatoresdomodelo,daescaladavariávelpodemcausarfalhasnoajuste.Em geralafaltadeajusteocorreporumacombinaçãodestes.
Consistemdadiferençaentreovalorobservado(yi)davariávelrespostaeoseu valoresperado(ˆ µi)deacordocomomodelo.
Nomodelolinearclássico y = Xβ + ϵ, µ = Xβ.Omodelopodeainda serexpressoemfunçãodamatriz H deprojeção: y = Hy + ϵ,emque H = X ′(X ′X) 1X,cujoselementosdadiagonalprincipalsãochamados leverages (hi),talque hi = x′ i(X ′X) 1xi.Amatriz H étambémconhecidacomo hat matrix,porseramatrizquecolocao chapéu novetordeobservações y,istoé, forneceosvalorespreditos ˆ y.Então,tem-se:
Napráticaissoquerdizerqueosresíduosordináriosnãopossuemvariâncias iguais,poisdependemde hi,nemsãoindependentes,pois Cov(ˆ
i, ˆ
j )= hij
, para i = j.
NoR,afunção residuals() extraiosresíduosdeobjetoscontendooresultado doajustedosmodelos.Jáos leverages sãoobtidoscomafunção hatvalues().
Revisitemosoobjeto m1 ajustadonocapítuloanteriorcontendooajustedeuma regressãolinearsimplesdaresistênciaapenetraçãoemfunçãodadensidadedo solo(dadoscamadassolo.csv).
1 >m1 <- lm (RP DS, data =solo)
2 >m1
3
4 Call :
5 lm ( formula =RP ~ DS, data =solo)
6
7 Coefficients:
8 (Intercept)DS
9 -19.6213.49
Amatriz H deprojeção,dedimensão 84 × 84,éobtidafazendo:
1 >X <- model . matrix (m1)
2 >H <- X% * % solve ( t (X)% * % X, t (X))
3 >H[1:5,1:5]
4 12345
5 10.0287114-0.00322120.03207280.0303921-0.0049019
6 2-0.00322120.0255182-0.0062464-0.00473380.0270308
7 30.0320728-0.00624640.03610640.0340896-0.0082633
8 40.0303921-0.00473380.03408960.0322408-0.0065826
9 5-0.00490190.0270308-0.0082633-0.00658260.0287114
10
11 >h <- hatvalues(m1)
12 >h[1:5]
13 12345
14 0.0287110.0255180.0361060.0322400.028711
However,perhapsthemainpointisthatyouareunderno obligationtoanalysevarianceintoitspartsifitdoesnot comeaparteasily,anditsunwillingnesstodosonaturally indicatesthatone’slineofapproachisnotveryfruitful.
–Fisher,1933Frequentementeconduzimosexperimentosparaprovarhipótesescientíficas.Admitindoqueestessejamdelineadosdeformaadequadaeregidospelosprincípios básicosdaexperimentação(repetição,casualização,controlelocal),avariação totaldosdadospodeserdecompostaempartesconhecidas,devidasaosfatores estudados,eempartedesconhecida,oerroexperimental.Essatécnicadedecomposiçãoédenominada análisedevariância (ANOVA),eestáassociadaaoteste F paraasfontesdevariaçãoconhecidas,taiscomotratamentos,interaçãoetc.
Veremosnestecapítulo,comorealizaranálisedevariânciadedadosexperimentaisprovenientesdodelineamentointeiramentecasualizado(DIC)edeblocos casualizados(DBC),ambosenvolvendoapenasumfatordetratamento.
AntesdeformalizaroconceitodeANOVA,dadooprotagonismodestatécnica emanálisesestatísticasdedadosexperimentais,faremosumaintroduçãomais intuitiva,pormeiodeumexemplosimples,paraqueoleitoriniciantenessetipo deprocedimentopossaentenderbemcomofunciona.
Considereumaamostracom n =20 dados1 deprodução(kg)degrãosde milho.Chamaremosproduçãodevariávelresposta y.Cadavalorde y foiobtido deumaparcelade4m2 numexperimentodecampo,istoé,há20parcelasno total.
1 >y <- c (25,26,20,23,21,31,25,28,27,24,22,26,28,25,29, 33,29,31,34,28)
Ocorrequeestasparcelasforamcultivadascomquatromateriaisgenéticos (variedades)distintosdemilho(A,B,CeD).Cadamaterial,queaquichamaremos detratamento,foicultivadoem5parcelas,istoé,foi repetido cincovezes.
1 >variedade <- gl (4,5, labels =LETTERS[1:4])
2 >variedade
3 [1]AAAAABBBBB C C C C C D D D D D
4 Levels:AB C D
Podemosdizeraindaque,porexemplo,ascincorepetiçõesdotratamento ArepresentamumaamostraretiradadapopulaçãodevaloresdeA.Estamos interessadosemsabersehádiferençasentreostratamentos,emníveldepopulações. Comonãotemososdadosdaspopulações,faremosconclusõessobreelascombase nosdadosdasamostras.Chamamosissode inferênciaestatística.
Aprendemosemcapítulosanterioresamensuraravariabilidadedeumaamostra.Issopodeserfeito,porexemplo,pormeiodavariânciaamostral,que basicamentemedeoquantoosvalores y sedesviamdamédia y =26 75 kg.A quantidade
SQy = (y y)2
chamadadesomadequadrados,refleteexatamenteessavariaçãototalem y Noexemplo, SQy =275 75.Aunidadedemedidanãonosconvém.Aparte superiordaFigura 14.1 mostraalocalizaçãodecadavalorde y e,abaixo,mostra separadamenteoscincovaloresdecadatratamento.
Supostamente,asvinteparcelasondefoiinstaladooexperimentosãohomogêneas.Apesardisso,observequeaindaassimhávariaçãonosdadosdeprodução entreasparcelasquereceberamummesmotratamento.Porexemplo,avariação (SQ)dentronotratamentoAéde26;notratamentoBéde30;eassimpordiante. Asomadessasvariaçõesinternaséde112.Observeaindaqueessesvaloresde variaçãointernasãosemelhantes.Eissoéumadasexigênciasparaserealizara ANOVA.Chamamosistode homocedasticidade.
1ExtraídosdeVieira&Hoffmann(1999).
Wheneverweattempttotestahypothesis wenaturallytrytoavoiderrorsinjudgingit. Thisseemstoindicatetherightwayofproceeding: whenchoosingatestweshouldtrytominimize thefrequencyoferrorsthatmaybe committedinapplyingit.
–JerzyNeymanQuandooteste F daANOVAestásendoutilizadoparatestardiferençasentre I tratamentos,aseguintehipótesedenulidadeéformulada:
Quando I> 2,algumascomparaçõesespecíficasdetratamentospodemser deinteresse.Nessecontexto,osprocedimentosdecomparaçõesmúltiplassão apropriadoseservemcomoumcomplementodoteste F
Háumnúmerorazoáveldeprocedimentosnaliteratura.Aplicaremosalguns deles,separando-osdeacordocomafinalidade,emdoistiposprincipais:comparaçõesplanejadasecomparações post-hoc.E,emboraasaplicaçõesaseguirsejam apresentadasconsiderandométodosclássicosdeinferência,algunsdosprocedimentospodemserestendidosparatestesassumindooutrasdistribuiçõesalémda normal.
Umcontrasteéumacombinaçãolineardemédiascujasomadoscoeficientesé nula,istoé,
Revisitandooexemplosobrecultivaresdebatatadocapítuloanterior,podemos construirumcontrasteentremédiasdecultivaresresistentes(1e3)esuscetíveis (2e4)à P.infestans:
Nocaso,otestede C refere-seàcomparaçãodedoisgruposdemédias, conformepodemosescrevernahipótese H0 : µ1 + µ3 = µ2 + µ4.Esteé,então, umacomparaçãodotipo planejada,poispercebaqueháumsentidopráticona comparação–gruposderesistênciaàdoença.Aestatística t-Studentpodeser utilizadaparatestarasignificânciadeumcontraste,pois:
Algunsexperimentosrequeremoajustedosefeitosdetratamentossobreavariável resposta Y apartirdoefeitodeumaoumais covariáveis quantitativas X
Considere,porexemplo,umexperimentorealizadoemcampodeprodução desojaparacomparaçãodediferentestecnologiasdepulverizaçãodedefensivos agrícolas.Consideremosavariávelrespostacomoauniformidadedeaplicação.A áreaexperimentalpodeser,seconveniente,divididaemblocosparacontroledoerro experimental.Mas,aindaassim,podeserqueavelocidadedoventosejadiferente nomomentodaaplicaçãodeparcelasdeummesmobloco,oquepoderiacausar umafonteadicionaldeerroexperimentalpeloefeitodaderiva,quepodealterara resposta.Nãoobstante,tendo-seanotadoavelocidadedoventonomomentode aplicaçãodecadaparcela,pode-seutilizá-lacomo covariável,transformandoo modelodeanálisedevariâncianummodelode análisedecovariância.
Covariável,numaanálisedecovariância,podeserentendidacomoumfator quantitativoquepodeterefeitosobreavariávelresposta.Claro,podehavermais deumacovariávelsimultaneamentenummesmomodelo.Noexemploanterior, poder-se-iatambémconsiderarcomocovariáveisatemperaturaeaumidadedoar nomomentodaaplicação.
Doisfungicidas(trt)foramavaliadosexperimentalmenteacampoemdelineamento inteiramentecasualizadocomaculturadasoja.Avariávelresposta(y)éo rendimentodegrãos,emsacas/ha.Ocorreque,porocasiãodaaplicaçãodos
fungicidas,asparcelasapresentavamdiferentesníveisdeincidênciaeseveridadeda doença.Assim,acovariável(x)representandoaáreafoliar(%) livre dadoença emcadaparcelafoitambémmensuradaparafinsdecontroleexperimental.O conjuntodedadoséancova.csv.
1 >soja <- read . csv ("https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / ancova.csv",colClasses= c ("factor"," numeric","numeric"))
2 >str(soja)
3 ’data.frame’:20obs.of3variables:
4 $ trt:Factorw / 2 levels "1","2":11111111...
5 $ x:num58.450.960.551.368.451.749.857.1...
6 $ y:num51.447.948.541.358.439.744.845.1...
Observeaseguirasmédiasderendimento.Há1.84sc/ha(110.4kg/ha)de diferença.Mas,pelaANOVA,essadiferençanãoédetectável,mesmonãohavendo problemascomospressupostosdomodelo.
1 > aggregate (y trt, data =soja,FUN= mean )
2 trty
3 1148.28
2250.12
Emboranãohajaefeitodostratamentosfungicidassobreacovariávelx,é razoávelsuporqueoefeito(τi)dosfungicidassobreosdadosderendimentode grãos(yij )sejainfluenciadopelovalordexnasrespectivasparcelas(xij ).Assim, deve-seincluirnomodeloestatísticoparaorendimentodegrãosoefeito(b)dessa covariável.
yij = µ + b(xij x)+ τi + ϵij
Notequetalmodeloéumamisturadosmodelosderegressãolinearede análisedevariância.Otermo b representaocoeficientederegressão,efeitolinear dexsobreyemambosostratamentos.Observequexécentradanamédia,para quesuainclusãonãoafeteaestimativadamédiageral µ.Observeoajustedo modelodeANCOVAnoR:
1 >mod <- lm (y I (x- mean (x))+trt, data =soja)
Umfatorpodeserdefinidocomoaquiloquesupostamenteafetaarespostaouaquilo quesequerestudar,nocasodeumfatordetratamento.Osníveisdeumfator correspondemaosvaloresqueeleassume.Ensaiosenvolvendoapenasumfatornão permitemestudarasinteraçõesquepodemexistirentreosfatores.Porexemplo, emestudosdeadubaçãooucalagem,éesperadoquehajamdiferençasnasrespostas obtidascomasdosesdeacordocomalâminadeirrigaçãoaplicada.Assim,dose elâminaseriamdoisfatoresdetratamentoaseremestudadossimultaneamente nummesmoexperimento.Logo,chamamosdeexperimentosmultifatoresaqueles emqueseestudaoefeitodedoisoumaisfatoressimultaneamente.
Umfatorpodeserdotipoqualiouquantitativo,havendodiferençasnaformade estudodessefator.Nãoobstante,hádoistiposdeestruturaderelacionamento entrefatores:
• Estruturacruzada:quandoosníveisdeumfatorsãosempreosmesmospara todososníveisdosoutrosfatores.Éocaso,porexemplo,deexperimentos decomparaçãodeummesmogrupodecultivares(fator1)emdiferentes locais(fator2).
• Estruturaaninhadaouhierárquica:quandoosníveisdeumfatorvariam deacordocomosníveisdosoutrosfatores.Éocaso,porexemplo,de
umexperimentodeavaliaçãodedoses(fator1)deprodutos(fator2)com ingredientesativosdiferentesparaumamesmafinalidade.
Observequeumexperimentomultifatorpodeconterfatorescomumoucom osdoistiposdeestrutura.
Experimentosmultifatorescomestruturacruzadapermitemoestudodedois tiposdeefeito:
• Efeitoprincipal:trata-sebasicamentedavariaçãoentreasmédiasdosníveis deumfator,desconsiderandoosníveisdosoutrosfatores.
• Efeitodeinteração:refere-seàinfluênciadeumníveldeumfatorno comportamentodosníveisdosdemaisfatores,ouseja,adependênciaentre fatores.
Veremosprimeiramentecomoestudargraficamenteoefeitodainteração. Depois,porocasiãodaanálisedevariância,veremosotesteparaainteração.Para isso,considereumexperimentodefertilizaçãocom vinhaça emcana-de-açúcar.
Foimedidaaproduçãode3variedades,cadaumasoboefeitode4doses(L/ha) devinhaça,em3blocoscasualizados.Oconjuntodedadosévinhaca.csv(Cap. 7).
Comafunção ordered() estamoscriandoumacolunaadicional vinhacaf transformandoacolunaemcategórica(fatorordenado),paraajustedomodelo considerandocontrastesdotipopolinomialparaofatorvinhaça.Comisso mantemosacoluna vinhaca comonuméricaparaserutilizadanoajustede modelosderegressão.
1 >cana <- read csv ("https: / / raw.githubusercontent.com / arsilva87 / statsbook / main / datasets / vinhaca.csv")
2
3 >cana $ vinhacaf <- ordered (cana $ vinhaca)
4 >cana $ bloco <- as factor (cana $ bloco)
5
6 >str(cana)
7 ’data.frame’:36obs.of5variables:
8 $ variedade:Factorw / 3 levels "A","B","C":1231...
9 $ vinhaca:int000000000500...
10 $ bloco:Factorw / 3 levels "1","2","3":1112...
11 $ producao:int69657166677368647072...
12 $ vinhacaf:Ord. factor w / 4 levels "0"<"500"<"1000"<...
Umestudoinicialdainteraçãoéfeitodispondonoplanobidimensionalas médiasdeproduçãodascombinaçõesdedoseevariedade,oquechamamosde gráficodeinteração (Figura 17.1).
Noisolatedexperiment,howeversignificantinitself, cansufficefortheexperimentaldemonstration ofanynaturalphenomenon[...]
–FisherNaexperimentação,nãoraramenteocorreainstalaçãodeexperimentosemvários locais,épocasouemdeterminadascondiçõesedafo-climáticas,visandoauma maiorabrangênciadasconclusõesobtidas.
Evidentemente,resultadoslocais,istoé,paracadaambiente,podemserobtidos analisandoindividualmenteosdadosdecadaexperimento.Entretanto,tantona áreaanimalquantonavegetal,aanáliseconjuntadeexperimentosédegrande importância,também,paraaquantificaçãoda interaçãoGenótipoxAmbiente. Nomelhoramentogenéticovegetaléparticularmenteimportanteparaanálisesde adaptabilidadeeestabilidadedegenótipos,ouemensaiosdeVCU(valordecultivo euso).Nãoobstante,aanáliseconjuntapodetambémsermuitoelucidativa emestudosdeavaliaçãodeagroquímicosoudefensivosemdiferentescondições ambientais.
Umaspectoimportantequedeveserlevadoemconsideraçãoéacorreta definiçãodotipodeefeitodosfatoresemestudo,sedeefeitofixooualeatório.Os efeitosdosníveisdeumfatorpodemsertratadoscomovariáveisaleatórias,desde quesejaplausívelconsiderarosníveisdetalfatorcomoumaamostraaleatóriade umapopulaçãodeníveise,assimsendo,seriarazoávelassumirumadistribuição deprobabilidades.Nessecaso,asconclusõesdapesquisasãoválidasparatodaa população,nãosóparaosníveisamostrados.Emcontrapartida,osníveisditos
fixossãoconvenientementeescolhidospelopesquisador,easconclusõessãoválidas somenteparaessesníveis.
Noprimeirocaso(efeitoaleatório),oobjetivodapesquisaéaestimaçãode componentesdevariânciae/oucovariância,podendo-seaindafazerinferências acercadestes.Nosegundocaso(efeitofixo),osobjetivosdapesquisalimitam-se àestimaçãodeparâmetrosecomparaçãodosefeitosdaquelesníveisensaiados, sendoasinferênciasfeitasapenasaosefeitospopulacionaisdaquelesníveis.
Assim,nosexperimentosondeosambientessãodiferenteslocais,aleatoriamenteselecionadosdeumaregiãodeinteresse,osefeitosdesseslocaisdevemser consideradosaleatórioseasconclusõesserãoexpandidasparaaregião.Poroutro lado,seoslocaisnãorepresentamtalregião,seusefeitosserãoconsideradosfixos.
Éimportantesalientarqueadecisãodeconsideraroefeitodeambiente (experimento)comofixooualeatóriodependedoobjetivodapesquisae,uma veztomadaadecisão,diferentesprocedimentosinferenciaisdevemserfeitospara responderaesseobjetivo.
Particularidadesrelacionadasamodeloscomefeitosaleatóriosserãoabordadas umpoucomaisnocapítulodemodelosmistos.
Umavezobtidososdados,oagrupamentodosexperimentosparaumaanálise conjuntapoderáobedeceradiferentescritérios,inclusiveaquelesutilizadosna repartiçãodosexperimentos,taiscomo:
• Setoresgeográficos.
• Tipodesolo.
• Época.
Outrotipodecritérioéodeagruparexperimentossegundoaafinidadea algumacaracterísticadeinteresse.Porexemplo,experimentoscomprodutividades acimadeumvalorpre-fixadopodemseranalisadosconjuntamente.
Pode-seaindaagruparexperimentospelaordemdegrandezadosquadrados médiosdosresíduosdasanálisesdevariânciaindividuais.Demodoqueexperimentosqueapresentemvariânciasresiduaissemelhantespodemseragrupados semmaioresprejuízosàsconclusões.Estatisticamente,umcritériointuitivoseria calculararazãoentreomaioreomenorquadradomédiodoresíduo,digamos QMres1 e QMres2,respectivamente,obtendo
[...]Asecondprinciple(whichappliesalsotoartists!) isnottofallinlovewithonemodel toexclusionofalternatives.
–McCullagh&Nelder,1989Aseleçãodemodelosestatísticoséumaparteimportantedetodapesquisaque envolvemodelagemebuscadeummodelotãosimplesquantopossíveleque descrevatãobemquantopossíveloprocessogeradordosdados.Noscapítulos anteriores,vimoscomomodelarumavariávelresposta Y emfunçãodefatores quantiequalitativosatravésdeumaabordagemclássica,considerandodistribuição normal,homogeneidadedevariânciaseoutraspressuposições,que,quandonão verificadas,podempromoverinferênciaspoucoconfiáveis.
Ocorreque,muitasvezes,époucorazoávelassumiradistribuiçãonormal.É ocaso,porexemplo,quandodarealizaçãodeensaiosdotipodose-respostaem experimentosentomológicos,emquedecadaunidadeexperimentaléobservadoo númerodeinsetosmortos/vivosapóssubmetidosaoefeitodeinseticidas.Ora, paraessetipodevariável,provavelmenteumacontagembinomial,assumira distribuiçãonormalpodenãoserapropriado.Percebaqueadistribuiçãobinomial implicaassumirqueavariânciadeumaobservação V (yi) estárelacionadacom média E(yi),oquesignificapermitirlidarcomheterocedasticidade.
Tambémnãoégarantidoqueousodetransformaçõesnavariávelresposta, comoraizquadradaouasdotipopotênciaótimadeBox-Cox,porexemplo, venhaaproximardanormalidadee/ouestabilizarasvariâncias.Alémdisso,
transformaçõesapresentamoinconvenientedealterarosignificadodavariável resposta.
Namaioriadosestudosobservacionaisouexperimentais,asvariáveisrespostaassumemapenasvalorespositivos(massa,volume,área,comprimentoetc.). Nãoraramente,adistribuiçãodeprobabilidadesdessasrespostaséassimétrica, diferentementedanormal.
Emcasoscomoosapresentados,convémoajustedemodeloslinearesgeneralizados(doinglês, GLM–generalizedlinearmodels),umaextensãodosmodelos clássicosderegressãounivariadacomaqualépossívelassumirumadistribuição condicionalapropriada,incluindoanormal,paraavariávelresposta.
MLGéumateoriaunificadoradeváriastécnicas,taiscomoregressão logito (oulogística), probito,regressãoPoissoneoutras.
AexigênciaquefaremosaquiparaoajustedeumMLGéque n observações independentessejamtomadasdeumavariávelrespostacujadistribuiçãode probabilidadespertenceà famíliaexponencialdedistribuições,comoapresentada noiníciodolivro.
UmMLGéajustadoparadescreverumarespostaunivariada Y associadaaum conjuntodevariáveisexplanatórias X linearmentecombinadas,constituindoo modelo
i β)+ ϵi
sendo µi ovaloresperadopelomodeloparaaobservação yi, g( ) umafunçãocuja inversaexiste, ηi éoresultantedacombinaçãolineardasvariáveisexplanatórias cujosefeitossãoquantificadospelosparâmetros β; ϵi éoerroaleatórioassociado a yi
ObomajustedeumMLGdependedadefiniçãoadequadadotrinômio: componentealeatório, componentesistemático e funçãodeligação.
O componentealeatório representaoconjuntode n observaçõesindependentesdavariávelaleatória Y , y1,y2,...,yn,obtidasdeumamesmadistribuição pertencenteàfamíliaexponencial.Essecomponenteéespecificadoassimqueé definidaarespostaaseranalisada,quepodesercontínuaoudiscreta.Sãocomuns
Allmodelsarewrong,butsomeareuseful.
Emmodelosestatísticososfatorespodemserdeefeitofixooualeatório,adepender doobjetivodoestudo.Umfatoréditodeefeitofixoquandoseusníveissão selecionadospropositalmenteparaseremavaliadosexperimentalmente.Poroutro lado,osníveisdeumfatordeefeitoaleatóriosãoaleatoriamentetomadospara comporumaamostradeumapopulaçãodeníveis.
Modelosquepossuemapenasfatoresdeefeitofixosãochamadosde modelos fixos.Osquepossuemapenasfatoresdeefeitoaleatóriosãoos modelosaleatórios. Eosquepossuemambosostiposdeefeitosãoos modelosmistos.Umexemplo simplesecomumdemodelomistoéomodelodeanálisedevariânciapara odelineamentodeblocoscompletoscasualizados(DBC),emqueoefeitode tratamentoséfixoeodeblocoséaleatório,umavezqueafunçãodesteséde controleambiental,comseusníveisrepresentandoumaamostradoambiente.
Modelosdeefeitosmistospodemacomodarheterogeneidadedevariâncias relacionadaafatoresexperimentais,bemcomoestruturasdecorrelaçãorelacionadasamedidasrepetidas,dependênciatemporale/ouespacial.Podemser especialmenteúteisparaacomodardependênciagenéticaentreindivíduospor meiodeumamatrizdeparentesco.
Porocasiãodaanáliseconjuntadeexperimentosconduzidosemambientes distintos,podehavervariabilidademuitodistintaentreosambientes,oquetraria
algumadificuldadeparaaanáliseconjunta.Nãoobstante,ummodelomistocom efeitoaleatóriodelocalécapazdeacomodaressacondiçãodeheterocedasticidade.
Considereomodelolinearespecificadonaformamatricial:
y = Xβ + Zu + ϵ
emque y éovetordeobservaçõesdavariávelresposta, X éamatrizdedelineamentodosfatoresdeefeitofixo, β éovetordeparâmetrosdosefeitosfixos, Z é amatrizdedelineamentodosfatoresdeefeitoaleatório, u éovetordeefeitos aleatóriosdesconhecidos, ϵ éovetordeerrosaleatórios.
Ovetor u éassumidoterdistribuiçãonormaldemédiazeroematrizde covariância G; ϵ éassumidoterdistribuiçãonormaldemédiazeroematrizde covariância Σ; u e ϵ sãosupostosseremindependentes.
Asmatrizes G e Σ permitem,aomenosteoricamente,queomodelocapture qualquertipodeestruturadeheterocedasticidadee/oudedependêncianosdados y;diferentementedomodelolinearclássico y = Xβ + ϵ,emqueseassume variânciaconstanteeausênciadecorrelaçãoem ϵ.Algunstiposcomunsde estruturadecovariânciapara G são:nãoestruturada(maiscomplexa),simetria composta,autorregressivaeespacial.Oleitorpodeconsultaraseção11.8.2,onde sãomostradosalgunsdessestipos.
Considere,porexemplo,omodelodeANOVAdoDBC,comovistoanteriormente: yij = µ + τi + bj + ϵij
Considerando-oummodelofixo,istoé,comambostratamentoseblocosde efeitosfixos,ecom ϵij ∼ N (0,σ2),tem-se:
Var(yij )= Var(ϵij )= σ 2
Masconsiderandoefeitofixodetratamentoeefeitoaleatóriodeblocos,com bj ∼ N (0,σ2 b ) e ϵij ∼ N (0,σ2),sendoambosindependenteseidenticamente distribuídos,
Var(yij )= Var(bj + ϵij )= Var(bj )+ Var(ϵij )= σ 2 b + σ 2
equeacovariânciaentreduasobservações(i e i′)nummesmobloco j é
Inteiramente exemplificado e ilustrado, com aplicações em R. Leitura essencial para pesquisadores das ciências da vida; material paradidático indispensável a estudantes de pós-graduação e graduação. A cada capítulo o leitor é ainda agraciado com um Jupyter notebook pronto para execução em nuvem dos exemplos resolvidos, com total liberdade para checar resultados, modificar comandos e finalmente decodificar os métodos estatísticos.