suplemento história da estatística

Page 1

A HISTÓRIA DA ESTATÍSTICA

FAZ PARTE INTEGRANTE DO JORNAL. PROÍBIDA A VENDA ISOLADA


O INICIO DOS INICIOS Actualmente a estatística é considerada como uma ciência exacta e em qualquer universidade, ela está integrada no Departamento de Matemática (Silva & Coutinho, 2005).

Quando se repara no nascimento da estatística Silva et. al. (2005) citando Droesbeke & Tass (1990), Dutarte e Piednoir (2001) e Joseau (2001) afirmam que a palavra estatística surgiu do latim Statisticum que significa relativo ao estado. Contudo, não existe literatura consensual sobre quem de facto criou a estatística tal como a usamos nos nossos dias. “Confúcio relatou levantamentos feitos na China, há mais de 2000 anos antes da era cristã. No antigo Egipto, os faraós fizeram uso sistemático de informações de carácter estatístico, conforme evidenciaram pesquisas arqueológicas. Desses registos também se utilizaram as civilizações pré-colombianas dos maias, astecas e incas. É conhecido de todos os cristãos o recenseamento dos judeus, ordenado pelo Imperador Augusto” (Memória, 2004). Huot (1999) descrevendo a história da estatística, afirma que quando Jesus Cristo nasceu, Herodes fez um recenseamento. A família de José teve que se deslocar a Belém. Esse recenseamento foi por encomenda de Júlio César, cujos objectivos, foram: • Eliminar jesus, • Inventariar as diferentes populações do Império Romano em plena expansão Huot (1999) destaca ainda que, muito antes de César, os Sumérios e os Chineses faziam a contagem das suas populações, prática que ficou perpetuada até a Idade Média. Huot (1999) citando Willis (1992) “Em 1085, Guilherme, o Conquistador, ordena um recenseamento em todo o território (a futura Inglaterra), para estabelecer o montante dos impostos a obter: <<Cada localidade era obrigada fazer inventário das suas terras aráveis, das suas florestas e das suas pastagens, do número das suas atrelagens de charruas e dos moinhos, dos seus trabalhadores e das suas possessões, mesmo da mais pequena exploração de animais >> ” A tradição perpetuou-se até aos

nossos dias, dado que, à excepção da Holanda, todos os estados modernos fazem recenseamentos. Memória (2004) destaca ainda que: • Os balancetes do império romano • O inventário das posses de Carlos Magno • O Doomsday Book, registo que Guilherme, o Conquistador, invasor normando da Inglaterra, no século XI, mandou levantar das propriedades rurais dos conquistados anglo-saxónicos para se inteirar das suas riquezas. São alguns exemplos anteriores ao desenvolvimento da estatística descritiva no século XVI, na Itália. O Renascimento, despertou o interesse pela colecta de dados estatísticos, principalmente devido às suas aplicações na administração pública. A obra pioneira de Francesco Sansovini (1521 – 1586), representante da orientação descritiva dos estatísticos italianos, publicada em 1561, é um exemplo dessa época. Deve ser mencionado ainda o reconhecimento por parte da Igreja Católica Romana da importância dos registos de baptismos, casamentos e óbitos, tornados compulsórios a partir do Concílio de Trento (1545 – 1563). Huot (1999) citando Tremblay (1991) adianta ainda que “Francisco I (1515-1547) e, depois, J. B. Colbert (1619-1683), em 1667, fizeram o inventário de nascimentos, casamentos e óbitos em França”. Huot (1999) indica que esses dados foram usados para prever os efectivos do exército. Quanto ao primeiro uso da estatística Silva et. al. (2005) citando Kendall (1978) “argumenta que o primeiro uso da estatística deu-se num trabalho do historiador italiano Girolamo Ghilini em 1589, que versava sobre


uma descrição política” É na sequência disso que Memória (2004) destaca ainda “os estudos feitos pelos alemães, especialmente por Gottfried Achenwall (1719 – 1772), professor da Universidade de Göttingen, a quem se atribui ter criado o vocábulo “estatística”, em 1746. Contudo, nada mais fez do que dar melhor sistematização e definição da mesma orientação descritiva dos estatísticos italianos. Acreditar nessas actividades como o começo da história da estatística é deixar de compreender o verdadeiro significado da Estatística. Podemos dizer que o desenvolvimento da estatística teve origem nas aplicações, pois nenhuma disciplina tem interagido tanto com as demais disciplinas nas suas actividades do que ela, dado que é por sua natureza a ciência do significado e do uso dos dados. Daí, sua importância como instrumento auxiliar na pesquisa científica”. Ainda Memória (2004) diz ainda que “a primeira tentativa para se tirar conclusões a partir de dados numéricos foi feita somente no século XVII, na Inglaterra, com o que foi denominado Aritmética Política, que evoluiu para o que se chama hoje de demografia. Contudo, só começou realmente a existir como disciplina autónoma no raiar do século XX, o verdadeiro início da estatística moderna”, que Huot (1999) destaca Colbert (construtor das bases do estado Francês) o promotor que levou a palavra estatística se tornasse um elemento do vocabulário administrativo. “Na mesma época, Blaise Pascal (1623-1662) interessava-se pela teoria de jogos de azar. As probabilidades dos fenómenos aleatórios tornavam-se objecto de estudo para os matemáticos. Em 1778 tenta-se calcular a população Francesa. Carl Friedrich Gauss (1777-1855) descreve a lei normal e propõem-na como modelo estatístico”.

Huot (1999) aponta ainda que em 1801 a Inglaterra decretou a manutenção de recenseamento em cada 10 anos, enquanto que a França, Noruega e Dinamarca efectuavam pela primeira vez um recenseamento digno desse nome. Canadá, em 1666, Jean Talon (1625-1694), durante o governo de Colbert, inventariou a população de Montreal. O Canadá só vem a decretar o recenseamento de 10 em 10 anos em 1871. Memória (2004) Indica ainda que a tentativa da criação da estatística moderna foi feita por John Graunt (1620 – 1674), um próspero negociante londrino de tecidos que em 1662, publicou um pequeno livro intitulado Natural and Political Observations Mentioned in a Following Index and Made upon the Bills of Mortality. A sua análise foi baseada em razões e proporções de factos vitais, nos quais ele observou uma regularidade estatística num grande número de dados. Pelo seu trabalho foi eleito Fellow of the Royal Society (F. R. S.), sociedade científica fundada em 1660, por Carlos II. Os dados usados por Graunt compreendiam uma serie anual de 1604 a 1660, colectados nas paróquias de Londres, de onde ele tirou as seguintes conclusões: • Havia maior nascimento de crianças do sexo masculino • Havia distribuição aproximadamente igual de ambos os sexos na população geral. • Alta mortalidade nos primeiros anos de vida; • Maior mortalidade nas zonas urbanas em relação às zonas rurais. A noção de sondagem iniciou-se somente no século XX, com a aceitação da noção representactividade da amostra. Mas há ainda mais situações que Huot (1999) descreve: •

Cesare Lembroso (1835-1909) pretendeu estabelecer ligação entre o comportamento das prostitutas e o comprimento do dedo mediano do seu pé;

Stanley Hall (1846-1924) recorreu a elevada taxa de suicídio entre as mulheres para testemunhar o estatuto primitivo da sua evolução, depois refinado por Charles Spearman (1863-1945) com a teoria de factores de inteligência etc.


Voltando a Memória (2004) destaca que, a estatística teve como principais etapas: • Primórdios, dividida em três partes: Contribuição da Astronomia, A Influência de Quételet, e As Idéias de Galton. • A Escola Biométrica. • A Fase da Experimentação, também dividida em três partes: Fundamentos Teóricos da Estatística, Análise de Variância e Delineamentos Experimentais, e Teste de Hipóteses Estatísticas. • Desenvolvimento dos Levantamentos por Amostragem e, finalmente. • A Era Actual, onde é enfatizada a revolução causada pelos computadores.

I. A Escola Astronómica, a Influência de Quételet, e as Ideias de Galton Em 1810, Laplace publicou Mémoire sur les formules qui sont function de très-grands nombres. Eminentes matemáticos contribuíram, posteriormente, para seu desenvolvimento, com maior rigor. Actualmente, pode ser enunciado na sua forma clássica, do seguinte modo: Se uma população tem variância finita σ 2 e média µ , a distribuição da média aritmética de n observações aproxima-se de uma distribuição normal com variância

σ2 n

e média µ , à medida que o

tamanho n da amostra aumenta. O facto notável é que nenhuma restrição é feita sobre a função de densidade da população original. Daí, a grande importância da distribuição normal na teoria e aplicações da Estatística. As contribuições de Laplace foram sintetizadas na sua obra monumental Théorie Analytique des Probabilités, publicada em 1812 (Memória, 2004).

Adolphe Quételet foi quem primeiro percebeu que a Estatística deveria ser baseada na noção de probabilidade. Ninguém, melhor do que ele, representa a nova influência oriunda das ciências sociais (chamadas, na época “morais”), trazendo de volta a preocupação com o social originada pela Escola de Aritmética Política (Memória, 2004). Memória (2004) destaca Sir Francis Galton (1822 – 1911) que é considerado por Stigler (1986), um personagem romântico na História da Estatística e talvez o último dos cientistas fidalgos. Foi a leitura do livro de Charles Darwin (de quem era meio primo em primeiro grau) sobre Origin of Species (1859), responsável em transformá-lo de geógrafo amador em antropólogo e eugenista (a palavra eugenia foi cunhada por ele, em 1883). Sob o ponto de vista estatístico, seu livro Natural Inheritance, publicado em 1889, é provavelmente sua obra mais importante. Ele elaborou a sugestão de que a distribuição normal é completamente determinada pela média e desvio semiquartílico

II. A Escola Biométrica Memória (2004) fala da Escola Biométrica dizendo que ela floresceu na

Inglaterra, entre o final do século XIX e o começo do século XX, mais precisamente entre 1890 e 1920. Foi um dos grandes períodos formativos da história da Estatística, com a predominância das técnicas de correlação e ajustamento de curvas, de notáveis resultados na descrição das grandes amostras. Seu principal representante foi Karl Pearson (1857 – 1936), considerado, com justiça, o fundador da Estatística. Pearson, também se interessou pelas distribuições de ferequências que não seguiam a distribuição normal, com a intenção de agrupá-las, subordinando-as a um sistema geral de curvas de frequências, conhecido por sistema de curvas de Pearson. O ajustamento dessas curvas e a comprovação da aderência desses ajustamentos levou a descobrir e a


utilizar o teste Qui-Quadrado ( χ 2 ) como teste de significância, embora usando um número errado de graus de liberdade, o que mais tarde foi corrigido por R. A. Fisher. Pearson ainda determinou os coeficientes de assimetria e curtose. Com o aumento de trabalho, Pearson procurou angariar recursos para continuar as actividades do Laboratório de Biometria, obtendo em 1903, a primeira de uma serie de doações. Uma doação de Galton levou à fundação do Laboratório de Eugenia, em 1907. Esses laboratórios foram combinados em 1911, quando foi estabelecido o Departamento de Estatística Aplicada, e Pearson passou a ocupar a cátedra Galton de Eugenia no University College, cargo em que permaneceu até sua aposentação, em 1933. Gosset, mais conhecido por Student, durante o seu estágio no University College em londres no ano académico 1906/7 sob a orientação de Pearson, publicou um artigo em 1908 que denominou de Student e que foi um marco para um estudo das pequenas amostras. Student intui que para n pequeno, s estaria sujeito a um erro de amostragem maior e assim e isso só seria valido para grandes amostras, pois s era praticamente equivalente a x−µ ~ N (0,1) . O Trabalho de Gosset não foi reconhecido por Pearson, mas que foi σ , sendo portanto s n reconhecido por Fisher. Gosset publicou mais trabalhos com o pseudónimo student devido a imposição que lhe tinha sido imposto pela cervejeira Guinness, já que essa cervejeira não permitia aos seus técnicos que usassem os seus próprios nomes. Durante o período que Pearson exercia a Cátedra dedicou-se a publicação de tabelas estatísticas tais como, Tables for Statisticians and Biometricians (1914 – 1931), Tables for the Incomplete Gama Function (1922), Tables for the Incomplete Beta Funcion (1934), que se revelaram de grande utilidade àqueles que pesquisavam em estatística. Além disso, esteve ocupado com funções editoriais da Biometrika, actividade que exerceu até sua morte, em 1936. Para deixar essa revista livre somente para artigos de Estatística, Pearson fundou outra, The Annals of Eugenics, em 1930, dedicando-a exclusivamente à Eugenia e Genética Humana (Memória, 2004). Com a aposentação Pearson, o seu departamento foi desdobrado em dois: o Departamento de Eugenia e o Departamento de Estatística. O primeiro foi oferecido a Fisher, que o ocupou como professor catedrático de Eugenia, famoso também nesse assunto, com a publicação do seu livro The Genetical Theory of Natural Selection, (1930). Nesse cargo, Fisher passou a editor da nova revista The Annals of Eugenics, que sob sua influência tornou-se rapidamente importante em artigos sobre estatística. Somente em 1943, quando Fisher saiu para lecionar na Universidade de Cambridge, Inglaterra, seu substituto no Laboratório Galton, L. S. Penrose, dedicou novamente essa revista inteiramente a assuntos de genética humana, modificando seu título para Annals of Human Genetics, mantido até hoje. O Departamento de Estatística ficou a cargo do seu assistente e filho Egon Sharpe Pearson (1895 – 1980), primeiramente como reader e depois como professor titular. Pearson continuou como editor da Biometrika, até a sua morte, três anos depois.

III.

Fase de Experimentação

Considerado por C. Radhakrishna Rao como o fundador da Estatística Moderna, Fisher foi não somente o maior estatístico de sua época, mas para muitos que conheceram sua obra monumental, é ainda o maior estatístico de todos os tempos. Ao longo de sua eminente carreira, recebeu várias honrarias e distinções acadêmicas, entre outras, o grau de Doutor por sua Alma Mater em 1926, o título de Fellow of the Royal Society (F. R. S.) em 1929, e o título honorífico de Sir, em 1952 (Memória, 2004). a) Fundamentos Teóricos da Estatística Memória (2004) citando Yates & Mather (1963), na sua biografia sobre Fisher afirma que o método da máxima

verossimilhança foi, sem dúvida, uma das maiores contribuições de Fisher à metodologia estatística. Ainda recém-formado, Fisher entrou em contacto com os trabalhos de Student (1908), sobre a distribuição t e a subsequente distribuição do coeficiente de correlação em pequenas amostras. Nesse trabalho, Student usou um


processo de simulação, utilizando uma experiência de amostragem semelhante à que fizera para a verificação empírica das distribuições de s2 e Z do seu trabalho anterior. Entretanto, coube a Fisher, a solução da distribuição exacta de r para ρ ≠ 0 (Fisher,1915), cujo trabalho chegou à transformação r = tanh (z) (sendo z sua própria distribuição), fruto da sua intuição geométrica. Fisher, também criou a representação hipergeométrica. Mostrou a relação entre as distribuições anteriores com χ 2 que foi posteriormente publicada numa tabela denominada Statistical Tables for Biological, Agricultural and Medical Research, de Fisher & Yates (1938), com a distribuição da razão de variância, conhecida por F, assim denominada em sua homenagem a Snedecor e relacionada à distribuição z de Fisher pela expressão e2Z = F. Memória (2004) cita Fisher dizendo que “um estimador suficiente é aquele que contém toda a informação contida na amostra, sendo desnecessário considerar qualquer outro estimador”, logo, o método dos mínimos quadrados, de Gauss, é equivalente ao método da máxima verossimilhança, quando a distribuição é normal. Outra contribuição de Fisher foi a probabilidade fiducial. Ela é a probabilidade inversa ou probabilidade a posteiori de bayes, mais vulgarmente conhecida por Teorema de Bayes, em que o seu conhecimento é baseado em probabilidades à priori. Esse axioma foi usado para a inferência indutiva, desenvolvida para resolver problemas que vinham dos jogos de azar. O teorema de Bayes, publicado postumamente, da autoria do Reverendo Thomas Bayes (1702-1761), por autorização do amigo Richard Prince e reproduzido em Biometrika (1958). Fisher, também criou os testes não paramétricos. b) Análise

da Variância e de Delineamento de Experiências A Análise de Variância (Anova) é, provavelmente o método estatístico de maior repercussão na pesquisa científica, especialmente na experimentação agrícola, de onde surgiu como uma das muitas provas do génio de Fisher. É natural que a análise de variância e os delineamentos experimentais, vistos por ele como dois aspectos do mesmo todo, sejam tratados conjuntamente. O seu desenvolvimento e muito das suas aplicações originaram-se no período em que Fisher trabalhou na Estação Experimental de Rothamsted, de 1919 a 1933, a maior e mais antiga das instituições britânicas de pesquisa agrícola onde eram conduzidos ensaios com fertilizantes químicos desde sua fundação, em 1843. A terminologia por ele criada bem reflecte essa influência. As suas ideias sobre esse assunto encontram-se nas suas duas obras: Statistical Methods for Research Workers, (1925) e The Design of Experiments, (1935), as quais são consideradas como as suas maiores contribuições para a Estatística. Embora destinadas aos pesquisadores das áreas biológica e agronómica, não são de fácil leitura. Entretanto, graças à sua disseminação foram devidamente interpretadas, especialmente por George Waddel Snedecor (1881 – 1974), autor do livro (Snedecor, 1937), (Memória, 2004). A novidade introduzida por Fisher foi o princípio da casualização, uma brilhante inspiração, inteiramente sua, segundo Memória (2004) citando Yates (1964). Segundo ele, a casualização garantiria a validez da estimativa do erro e possibilitaria a aplicação dos testes de significância para se verificar o efeito dos tratamentos. Para ele, pela casualização (por um mecanismo objectivo de sorteio) nenhum tratamento seria continuamente favorecido ou desfavorecido nas sucessivas repetições por alguma fonte estranha de variação. Ela era necessária para que as variações que contribuem para o erro experimental fossem convertidas em variáveis aleatórias. Embora essa tenha sido a primeira abordagem da análise de variância, Fisher deu preferência à apresentação da análise aritmética da decomposição da soma dos quadrados, cuja simplicidade a torna acessível aos pesquisadores menos versados em teoria estatística. Isso representou um ganho prático enorme, desde que não fosse elevado a um ritual cego, nas palavras de Maurice Stevenson Bartlett (1910 – 2002), conhecido pelo seu teste de homogeneidade de variâncias (Bartlett, 1965) citado em Memória (2004). Entretanto, essa simplicidade de cálculos depende do facto da experiência ter sido delineada para ser ortogonal, i.e., permitir que os efeitos sejam capazes de uma estimativa directa e separada, pois, em caso contrário, tornar-se-á necessário usar o


princípio clássico dos mínimos quadrados para se estimarem os parâmetros. As técnicas de estimação de parcelas perdidas (missing plot), iniciadas com Allan & Wishart (1930), nada mais são do que recursos para restaurar a ortogonalidade, tornando assim possível Anos depois, Cochran aceitou convite de Gertrude Mary Cox (1900 – 1978) para integrar o corpo docente da Universidade Estadual da Carolina do Norte, em Raleigh, de onde saiu para a Universidade John Hopkins e finalmente para Harvard. É preciosa lembrança da sua colaboração com Gertrude Cox, a obra de Cochran & Cox (1950), cujo trabalho se havia iniciado quando ambos faziam parte do corpo docente de Iowa, de relevantes serviços aos que se dedicam à estatística experimental. Posteriormente, em 1947, veio para Ames, fazer parte do quadro profissional, também procedente da Inglaterra, onde estudara em Cambridge com Wishart e trabalhara alguns anos com Yates em Rothamsted, Oscar Kempthorne (1919 – 2000), outro estatístico de renome. No seu livro Kempthorne (1952), reconhece nas primeiras páginas do prefácio seu débito a Fisher e Yates, cujas contribuições considera como os fundamentos do assunto. Uma das figuras mais eminentes do grupo de matemáticos do Instituto de Calcutá foi Calyampudi Radhakrishna Rao (1920 –), conhecido dos estatísticos por seus inúmeros artigos e pelos livros: Advanced Statistical Methods in Biometric Research (1952) e a versão mais teórica dele Linear Statistical Inference and its Applications (1973). Além da influência inicial de Mahalanobis na sua carreira, Rao obteve seu Ph.D. em Cambridge, sob a orientação de Fisher e Wishart, influências estas que explicam a escola a que pertence. Na esfera internacional, P. V. Sukhatme tornou-se conhecido pelas suas actividades na Food and Agriculture Organization – FAO –, órgão das Nações Unidas, onde a partir de 1951, exerceu o cargo de diretor da Divisão de Estatística na sede, em Roma, por mais de 20 anos. As necessidades da experimentação industrial, onde são pesquisados vários factores representados por variáveis quantitativas, levaram ao desenvolvimento de delineamentos especiais, conhecidos na literatura pelo nome de Delineamentos de Box, em homenagem ao estatístico inglês George Edward Pelham Box (1919–), residente nos Estados Unidos desde 1956. Os novos delineamentos, tais como os delineamentos compostos e os rotacionais, permitem testar grande número de factores em poucas unidades experimentais. Essas ideias estão expostas nos seguintes artigos: Box & Wilson (1951) e Box (1954). Assim, os polinómios ajustados podem ser usados como funções de produção para calcular a combinação óptima dos insumos a serem utilizados. c) Teste de Hipóteses Estatísticas

A teoria clássica do teste de hipóteses foi fruto da colaboração entre dois eminentes estatísticos Jerzy Neyman e Egon Sharpe Pearson, iniciada quando Neyman estagiava no University College para onde fora estudar com Karl Pearson no outono de 1925. Esta colaboração é relatada por Pearson (1970) em The Neyman-Pearson Story (1926 – 1934). A axiomatização do cálculo de probabilidades, deu-se em 1933 com a obra do matemático Russo Andrey Nikolayevich Kolmogorov (1903-1987). Os seus encontros com Egon Pearson permitiram criar as bases da Teoria dos testes de hipóteses estatísticas, tendo publicado vários artigos, donde resultaram ideias e conceitos novos nos testes de significância da prova de hipóteses. Na Teoria de Neyman e Egon, no problema de testes de hipóteses, estão envolvidas duas hipóteses Ho (hipótese nula, a que se pretende testar) e H1 (hipótese alternativa – a contrária a hipótese nula) e que com base nas probabilidades de rejeitar Ho sendo ela verdadeira, gerava-se um erro tipo I e caso que se não rejeitasse uma hipótese falsa geraria um erro tipo II. Wald na década de 1940 encontrou, na Análise Sequencial, a decisão para terminar uma experiência, dependerá, em cada etapa, dos resultados previamente observados. Ele inclui o delineamento experimental como parte dos problemas de teorias de decisão, ideia criticada por Fisher, porque não incluía repetição, controlo local e casualização.


IV.

Época Actual

Memória (2004) citando Cox (1997), no artigo deste denominado The Current Position of Statistics: A Personal

View, os anos de 1925 a 1960 podem ser considerados a época áurea do pensamento estatístico. Este período abrangeu a maior parte dos trabalhos sobre inferência de Fisher, Neyman, Egon Pearson e Wald, além do desenvolvimento dos delineamentos experimentais e levantamentos por amostragem, assim como as ideias fundamentais sobre séries temporais e análise multidimensional, as contribuições bayesianas objectivas de Sir Harold Jeffreys (1891 – 1989) e as subjectivas de Bruno de Finetti (1906 – 1985) e L. J. Savage. O controlo estatístico de qualidade e os ensaios clínicos causalizados também já estavam firmemente estabelecidos. Embora tenham sido publicados importantes trabalhos entre 1960 e 1985, este período foi primariamente de consolidação das ideias anteriormente estabelecidas. No seu artigo Computers – The Second Revolution in Statistics, Memória (2004) citando Yates (1966) revela que, para ele, a primeira revolução na Estatística veio com a introdução das máquinas de calcular. De facto, tanto as contribuições de Karl Pearson como as de R. A. Fisher, no desenvolvimento teórico da Estatística, não teriam ocorrido não fosse o precioso auxílio prestado pelas máquinas de calcular. Ambos certamente esposam esse reconhecimento. Nas décadas de 40 e de 50, as máquinas de calcular manuais e elétricas tornaram-se comuns. O cálculo da soma dos quadrados de uso corrente na Anova era facilmente obtido, bem como a soma de produtos que facilita, também, a análise de regressão. Entretanto, faltava qualquer capacidade de programação, só trazida pelos computadores electrónicos que acarretaram grande economia de tempo e de mão-de-obra. Imagine-se fazer a inversão de uma matriz de ordem elevada ou o ajustamento de uma regressão múltipla com muitas variáveis, com uma máquina de calcular! Actualmente, um estatístico que não usa o computador é como uma espécie em extinção, cada vez mais raro de ser encontrado. Contudo, a realização de qualquer operação com um computador requer a existência de um programa apropriado, como por exemplo, o Statistical Analysis System – SAS) –, o Statistical Package for Social Siences – SPSS –, o Genstat, poderoso programa orientado primariamente para a análise de dados de experiências planeadas e para técnicas de análise multidimensional, e vários outros conhecidos pelas respectivas siglas. Entre outros assuntos, Hartley trata da simulação de processos estocásticos pela geração de números aleatórios, conhecida por métodos Monte Carlo, de importante impacto na construção de modelos matemáticos. Os entusiastas da Inteligência Artificial acreditarem que, com o tempo, será possível duplicar qualquer actividade da mente humana, já que esta é também uma máquina. Entretanto, outros argumentam que o processo criativo da mente humana é de natureza diferente e jamais será reproduzido numa máquina. O uso intensivo dos computadores afastou o estatístico do escrutínio inteligente dos dados, com consequências maléficas, se não forem utilizados com sabedoria, pois como diz Yates “os computadores são bons serventes, mas maus mestres”. Um exemplo dado por Hartley ilustra a inspecção dos erros residuais, isto é, das divergências entre dados observados e os valores ajustados pela regressão, que é altamente vantajosa para o pesquisador aprender algo sobre os seus dados. Por exemplo, o gráfico dos resíduos contra os valores calculados pela regressão linear pode indicar a falta de um termo quadrático ou de ordem superior. Quando usados judiciosamente, os pacotes estatísticos têm ajudado de modo extraordinário tanto os estatísticos como os pesquisadores. A lição aprendida foi não se intimidar em tratar grandes massas de dados, o que levou a uma nova onda de actividades conhecida por análise exploratória de dados, cujo expoente máximo foi John Wilder Tukey (1915 – 2000). Para Tukey, os problemas da ciência e suas aplicações tecnológicas, incluindo entre estas a engenharia, a agricultura e a medicina, não iniciam nem terminam com respostas ordenadas, daí a reabilitação da estatística descritiva, começando com análises gráficas e visuais. A análise exploratória, com ênfase nos aspectos descritivos, não elimina a análise confirmatória, de cunho inferencial, mas completam-se, como escreve Tukey (1980). Para os estatísticos aplicados, Tukey é conhecido


por seu teste para comparar todo e qualquer contraste entre duas médias, baseado na amplitude total “estudentizada” (studentized range), chamada na literatura, de teste de Tukey, cuja aplicação requer tabela especial, encontrada no livro de Snedecor (1937), O processo de procurar valiosas informações em enormes massas de dados é conhecido por mineração de dados (data mining), cujo exemplo é o projecto do genoma humano, que já armazenou centenas de gigabytes de dados. A mineração de dados é considerada um assunto interdisciplinar, que representa a confluência de várias ideias, inclusive da análise exploratória de dados, entre outras. O seu objectivo principal é encontrar estrutura nos dados, distinguindo-se da Estatística pela maior ênfase em algoritmos. Aliás, foi tirando proveito das redes neurais e dos algoritmos genéticos que foram desenvolvidos os métodos de análise de dados baseados no aprendizado de máquinas (machine learning). Berkson conclui que os métodos bayesianos podem ser validamente aplicados, quando a informação à priori se baseia em premissas de evidência objectiva, mas não a problemas científicos, quando reflectem uma ideia subjectiva da probabilidade, caso em que a verificação empírica é um requisito fundamental. Para finalizar, deve ser citada a opinião de Dennis Victor Lindley (1923 – ), uma das maiores autoridades no assunto, autor do livro Introduction to Probability and Statistics from a Bayesian Viewpoint – Part 1. Probability, Part 2. Inference (1965), e de um mais popular, Lindley (1971), que assim se expressa na página 70, da Part 2, Inference Resumindo: A estatística teve como as principais etapas Memória (2004): • Primórdios, dividida em três partes: Contribuição da Astronomia, A Influência de Quételet, e As Idéias de Galton. • A Escola Biométrica. • A Fase da Experimentação, também dividida em três partes: Fundamentos Teóricos da Estatística, Análise de Variância e Delineamentos Experimentais, e Teste de Hipóteses Estatísticas. • Desenvolvimento dos Levantamentos por Amostragem e, finalmente. • A Era Actual, onde é enfatizada a revolução causada pelos computadores.

II - Aplicabilidade da Estatística II – Vejamos algumas áreas de aplicabilidade da Estatistica Aplicabilidade na Biologia • No cálculo de Regressão e Correlação. • Estudos da estatística descritiva. Aplicação na Astronomia • Métodos dos mínimos quadrados. • Distribuição de dados (Gauss ou Normal). Aplicabilidade da Estatística na área Florestal • • • •

Manejo Florestal: espaçamento, adubação, idade de corte, desbaste, desrama, preparo de solo, produção de mudas. Melhoramento Florestal: procedência, progênies, clone, interação genótipo x ambiente. Ecologia aplicada: ciclagem e exportação de nutrientes, conservação da fauna silvestre. Produção de sementes: conservação de pólen.


• •

Recuperação de áreas degradadas: sistemas de plantio de nativas. Inventário Florestal: factores que influem no crescimento das árvores, correlação entre DAP e altura, mortalidade e clima.

Áreas mais relevantes da estatística e seu impacto noutras ciências Levin & Fox (2004) afirmam que a estatística existe fundamentalmente para os utilizadores e investigadores que usam números, poderem quantificar dados nominais, ordinais e intervalares que empregam a estatística como instrumento para: a) Descrição (como forma de aplicar métodos exploratórios) ou b) Tomada de decisão (como método confirmatório), Isto quer dizer, para se chegarem a conclusões ou obter resultados, um pesquisador estuda centenas, milhares ou mesmo um número ainda maior de pessoas, grupos ou dados.

Importância da estatística e sua metodologia no sec. XXI A estatística desempenha o papel importante em muitos processos de tomada de decisão. Ela explora a colheita, a organização, a análise e a interpretação dos dados numéricos (Pagano & Gauvreau, 2004). Pagano et. al. (2004) adiantam ainda que os conceitos da estatística são ainda aplicados em negócios, psicologia, agricultura, etc. Para a ciência biológica a estatística é usada com a denominação de Bioestatística A Análise Multivariada inclui métodos de análise das relações de múltiplas variáveis dependentes e/ou múltiplas variáveis independentes, quer se estabeleçam ou não relações de causa/efeito entre estes dois grupos. São também incluídos na estatística multivariada os métodos de análise das relações entre indivíduos caracterizados por duas ou mais variáveis (Reis, 2001). A estatística ajuda ainda na análise simultânea para mais do que uma variável, o que se denomina - análise multivariada. A análise multivariada é aplicada para a simplificação, isto é, tem como objectivo fundamental, sumarizar um conjunto vasto de dados através de um número reduzido de parâmetro (Reis, 2001). A análise de dados neste caso pode ser feita usando duas etapas fundamentais: Exploratória (necessária para novos temas de investigação, com o objectivo de se detectarem padrões ou estruturas não aleatórias nos dados observados que possam ser descritos e necessitem ser explicados). Aí são encontradas as perguntas e geram-se hipóteses adequadas e bem definidas a serem testadas e que na segunda etapa, faz a confirmação. Na fase confirmatória dá-se importância aos ensaios das hipóteses (Reis, 2001). São cinco as situações relativas a conjuntos de dados a analisar, nomeadamente:


i. Uma população para a qual se mediu um conjunto de p variáveis correlacionadas entre si. ii. Uma

amostra

de

dimensão

n

caracterizada

por

p

variáveis

intercorrelacionadas entre si. iii. Uma só amostra para a qual se mediram dois conjuntos de variáveis, podendo um destes conjuntos ser considerado explicativo do outro. iv. Duas amostras para as quais se mediram o mesmo conjunto de características. v. Três ou mais amostras para as quais se mediram o mesmo conjunto de características. A estatística também é tomada como base para análise da validade e fiabilidade de um instrumento de medida. Alguns Exemplos de aplicação da estatística na resolução de problemas Reais da Vida Humana 1. Percepção rápida da informação transmitida. Por exemplo, entende-se quando alguém apresenta números assim “em 1979, 48 pessoas no Japão, 34 na Suíça, 52 no Canadá, 58 em Israel, 21 na Suécia, 42 na Alemanha, foram mortas por armas de fogo” (Pagano et. al., 2004). O poder desses números é óbvio; a questão poderia ser formulada mesmo se corrigíssemos para diferenças no tamanho da população. 2. Também se entende correctamente se dizermos que, a falta de anticoncecionais está ligada à taxa de abortos excepcionalmente alta na Rússia – 120 abortos para cada 1000 nascimentos, comparados com 20 abortos por 100 nacimentos na Grã-Bretanha, onde o acesso aos anticoncetivos está garantido. É muita informação contida nesse resumo que só graças a estatística está bem resumido. 3. Na pesquisa social, o cientista social procura explicar e predizer o comportamento humano. Também procura fazer previsões construtivas sobre a natureza da realidade social, embora de maneira muito mais precisa e estruturada. No decorrer do processo, examina características do comportamento humano “variáveis” que são características que diferem ou variam de um indivíduo para outro, como por exemplo, a idade, classe social, comportamento, etc., ou de um instante para outro no decorrer do tempo, por exemplo, desemprego, taxa de criminalidade, etc.. Para além de especificar variáveis, o pesquisador social também pode determinar a unidade de observação, como por exemplo, fazer entrevistas para determinar a percentagem de idosos (Levin et. al., 2004) 4. Antes que um novo remédio possa ser colocado no mercado, os dados desse estudo precisam ser compilados e analisados para que seja determinado se o remédio é eficaz e seguro. Decisões para a prevenção social devem basear-se em previsões estatísticas para se determinar a longevidade da população. Sendo assim será necessário prever o número de anos que cada indivíduo viverá. Há questões como “como vai o governo investir os seus recursos” por exemplo se deseja reduzir a mortalidade infantil, se a mastectomia deve ser sempre recomendada em pacientes com cancro da mama, ou se pretende determinar os factores de risco de um indivíduo desenvolver uma doença


cardíaca coronária. São questões que são respondidas por métodos de bioestatística (Pagano & Gauvreau, 2004). Huot, Réjean (1999). Métodos Quantitativos para as Ciências Humanas. ISBN: 972-771-546-X. Lisboa: Instituto Piaget. Levin, J. & Fox, J. A. (2004). Estatística para Ciências Humanas. 9ª ed. São Paulo: Persoal Education. Memória, J. M. P. (2004). Breve História da Estatística. Brasília: Embrapa Informação Tecnológica. Pagano, M. & Gauvreau, K. (2004). Princípios de Bio Estatística. Tradução da 2ª ed. Americana. São paulo: Thomson. Reis, E. (2001). Estatística Multivariada Aplicada. 2ª ed. Revista e Corrigida. Lisboa: Edições Sílabo. Silva, C. B. & Coutinho, C. Q. S. (2005). O Nascimento da Estatística e sua Relação com o Surgimento da Teoria de Probabilidade. Brasil: Integração. Willis, F. R. (1992). Civilisation occidentale. Tomo 1. p. 307. Montreal: Guérin Éditeur


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.