COMO APRESENTAR OS SEUS DADOS EM GRÁFICOS E TABELAS 1 – INTRODUÇÃO 2 - REPRESENTAÇÃO TABULAR 3 - REPRESENTAÇÃO GRÁFICA 4 - COMO PLANEJAR A APRESENTAÇÃO DOS DADOS 5 – CONCLUSÃO
Maurício Abreu Pinto Peixoto Doutor em Medicina, FM – UFRJ Professor Adjunto do Laboratório de Currículo e Ensino Núcleo de Tecnologia para a Saúde (NUTES) Universidade Federal do Rio de Janeiro Ed. do Centro de Ciências da Saúde • Bloco A • Sala 26 Cidade Universitária • CEP 21949-900 Rio de Janeiro • Brasil • Tel: (021) 270-5449 • Telefax: (021) 270-3944 www.geac.ufrj.br
Rio de Janeiro Dezembro de 2006
Grupo de Estudos em Aprendizagem e Cognição
"É sábio olhar para frente, mas é tolice olhar mais longe do que podemos ver" Winston Churchill
1 - INTRODUÇÃO: Parafraseando o líder inglês, faça de suas tabelas e gráficos uma forma de comunicação; não deixe que eles se voltem contra você. Que sejam claros e diretos, e não um amontoado de dados confuso e muitas vezes falacioso. A representação gráfica e tabular permite transmitir idéias; e este é um ponto fundamental. É muito importante que você perceba, que ao apresentar os seus dados desta ou daquela maneira, você na verdade, procura transmitir as razões que o levaram à iniciar o trabalho, o que você encontrou e o que concluiu. Você está então; COMUNICANDO. Todo processo de comunicação baseia-se em um tripé; o comunicador, o método de comunicação. e o comunicado. Em nosso caso temos o pesquisador que comunica o seu trabalho, o meio escolhido por ele para fazê-lo e o leitor ou ouvinte, alvo precípuo da comunicação. É importante perceber que, se a mensagem não chega ou não é entendida adequadamente, todo o esforço de pesquisa foi perdido. Ainda mais, a interpretação errônea do trabalho pode gerar linhas de pesquisa ou conduta em total desacordo com a realidade dos achados do pesquisador. A representação gráfica e tabular é uma das formas de comunicação científica. Para transmitir adequadamente os achados e conclusões do pesquisador, é importante que gráficos e tabelas sejam construídos segundo determinados critérios. Desta maneira, a comunicação se dará de maneira clara, direta e verdadeira. Apresentar as principais formas de representação gráfica e tabular, discutir suas vantagens e limitações e finalmente apontar os erros de construção que levam à comunicação falaciosa são os objetivos deste capitulo.
2 - REPRESENTAÇÃO TABULAR: 2.1 - TABELAS SIMPLES: Tabelas apresentam informação, em geral numérica, arranjada sistematicamente, na forma de linhas e colunas. Suas partes componentes são; titulo, cabeçalho, corpo, coluna indicadora e casa ou célula. Apresentam também os elementos complementares que são em geral colocados no rodapé. São eles; fonte, notas e chamadas. Os comentários à seguir referem-se à tabela 1. Obedecem às normas de construção enunciadas pela Associação Brasileira de Normas Técnicas. Como você poderá perceber, elas são simples., e podem ser feitas em qualquer máquina de escrever. Aliás., foi este um dos seus objetivos; padronizar tendo como escopo a clareza. O uso de computadores, entretanto, tem permitido a inclusão de toda uma série de recursos gráficos, antes vedados ao datilógrafo. Isto é positivo, porque agora é possível usá-los para apresentar com mais eficiência a mensagem do autor. Se você tem acesso a um, sinta-se livre para usar todos os seus recursos. Neste capítulo mesmo ainda teremos oportunidade de apresentar algumas tabelas com um visual mais sofisticado. No entanto cabem aqui duas ressalvas de ordem prática. Em primeiro lugar, o uso excessivo de linhas, sombras, tipos e corpos de letras, pode mais atrapalhar do que auxiliar. Assim 2
Grupo de Estudos em Aprendizagem e Cognição
sendo, recomendo que utilize os recursos do seu computador com muito bom senso e moderação. Em segundo lugar, pense em quem receberá o seu texto. Se for o editor de uma revista, pode ser que suas belas e sofisticadas tabelas não estejam de acordo com as normas editoriais. Tabela 1 – Número de consultas realizadas no Setor de Pré-Natal da Maternidade-Escola da UFRJ durante o ano de 1989
Mês Janeiro
Número de consultas 640
Fevereiro
448
Março
750
Abril Maio
800 785
Junho
810
Julho
700
Agosto
757
Setembro
790
Outubro
215(*)
Novembro Dezembro
742 650
Fonte: Relatório Anual da Maternidade-Escola da UFRJ (*) Neste período o ambulatório sofreu paralisação parcial em função de obras de reforma Nota: A presente tabela é totalmente hipotética, tendo sido construída com fins exclusivamente didáticos
O Título, é colocado no topo da tabela. Deve ser o mais explicativo possível. Deve explicitar o que apresenta a tabela; quando e onde foram colhidos os dados apresentados. Não é suficiente apresentar em uma tabela que a idade de determinado paciente é "20". A primeira questão é : 20 o quê? Qual a unidade de medida? Anos., meses ou dias? Quando houver taxas (mortalidade, nascimento, etc.) é importante especificar a base de cálculo (100. mil. milhão. etc.). No caso de haver mais de uma tabela, o título deve incluir numeração. Veja que o título da tabela 1 explicita claramente o que vai ser apresentado. A seguir vem o Cabeçalho, que é onde são especificados os conteúdos das colunas. Localiza-se abaixo do titulo, dele separado por uma linha dupla, horizontal. Pode acontecer que seja mais adequado especificar aqui, e não no titulo, as unidades de medida e as bases de cálculo. Outra possibilidade é o rodapé. O critério utilizado para a escolha será o da legibilidade. Segue-se o Corpo da tabela, que contem o conjunto de linhas e colunas onde são apresentados os dados da (s) variável (eis) em estudo. Localizado abaixo do cabeçalho, dele se separa através de uma linha simples, horizontal. Ao final da apresentação de todos os dados, segue-se uma linha dupla, horizontal. Não existem linhas verticais nem para "fechar" os lados da tabela, nem para separar uma coluna de outra. Esta separação é visual, feita pela adequada tabulação dos dados. 3
Grupo de Estudos em Aprendizagem e Cognição
Na tabela 1, as Linhas são as retas imaginárias que contem os dados. Por exemplo; • Março 750 • Novembro 742 As Colunas contem todos os valores das variáveis. Por exemplo, na variável número de consultas, os números de consultas dos diferentes meses; 640, 750, 800, etc. Casa ou Célula é o espaço destinado à um único dado. Por exemplo; o espaço destinado para o número "742" ou então para o mês "Junho". A tabela 5.2 apresenta o conteúdo das células em alguns casos especiais. A Coluna Indicadora é aquela que identifica o conteúdo das linhas, pode ser a que contem o número do prontuário, número do caso, data do evento, faixa etária, etc. Em geral contem a chamada variável independente, que é aquela em função da qual se estuda a variação das outras variáveis dependentes. É, por convenção, sempre a primeira coluna da esquerda. Na tabela 1, o que se pretende estudar é a variação do número de consultas em função da época do ano. Assim, neste caso, a coluna indicadora é a da variável "Mês". No Rodapé localizam-se as informações importantes para um entendimento mais abrangente da tabela, mas que não a descrevem explicitamente. Por isto, não são colocadas no titulo ou no cabeçalho, pois estes ficariam complexos demais para compreensão imediata. A Fonte indica a proveniência dos dados. Apresentada apenas quando estes não foram colhidos pelo autor da tabela. A Chamada explica um detalhe específico da tabela; por exemplo, um valor aparentemente anômalo. Coloca-se um sinal. (na tabela 1, utilizamos o “*”.) na casa onde a chamada se mostrou necessária. Este é repetido no rodapé, onde se fazem as explicações necessárias. Tabela 2 - Convenções para preenchimento das células de uma tabela em casos especiais
Símbolo ____
...
o
Descrição Traço horizontal. Nos casos de valor nulo. Nas variáveis numéricas expressa que o valor obtido é "zero real". Nos outros casos o valor é nulo ou não é pertinente. Três pontos. Utilizado quando o dado não for disponível . Zero. Usado para indicar que o valor existe, mas é muito pequeno para ser medido pela instrumentação ou então expresso na unidade de medida uti1izada Caso esta utilize números inteiros, a célula será preenchida com "O". No caso da utilização de decimais, haverá tantos zeros quantos os necessários para expressar a totalidade da medida. Por exemplo, quando a medida é feita em centésimos, escreve-se "0,00"
Fonte: Resolução 886 do IBGE
4
Grupo de Estudos em Aprendizagem e Cognição
2.2 - SÉRIES ESTATÍSTICAS: A tabela 1 mostra o que denominamos de Série Estatística, que é um conjunto de dados arranjados segundo uma determinada ordem. Neste caso é uma série Histórica pois o critério de ordenação foi cronológico. São seus sinônimos; série cronológica, temporal ou marcha. Na série Geográfica, a variável é ordenada segundo regiões. Assim por exemplo, a prevalência de uma doença nas diferentes regiões do país. São seus sinônimos series espaciais, territoriais ou de localização. Note que ao tabular a freqüência de infecção em diferentes locais de um hospital, você também esta apresentando uma série geográfica. Nas séries Categóricas ou específicas, a ordenação é feita segundo categorias. Por exemplo; ao afirmar que as pacientes de seu estudo dividiram-se em 20% de brancas, 30% de negras e 50% de pardas, você apresenta uma série categórica cujo critério de ordenação é a cor. 2.3 - TABELAS DE DUPLA ENTRADA: Até agora apresentamos séries de uma única variável: atendimentos durante o ano, locais de maior risco de infecção, distribuição das pacientes segundo a cor, etc. Com isto podemos estudar ou apresentar como uma variável se comporta quando considerada isoladamente. No entanto. é muitas vezes útil estudar a variável relacionada com outra. Por exemplo na tabela 5.3. apresentamos o número de consultas segundo o mês E o ano. Tabela 3 - Número de consultas realizadas no Setor de Pré-Natal da Maternidade-Escola da UFRJ durante os anos de 1988, 1989 e 1990.
Mês 1988
Número de consultas 1989
1990
Janeiro
650
640
660
Fevereiro
428
448
446
Março
758
750
730
Abril Maio
810 815
800 785
790 805
Junho
820
810
815
Julho
698
700
705
Agosto
747
757
750
Setembro
796
790
785
Outubro
760
215(*)
765
Novembro
747
742
743
Dezembro
620
650
630
5
Grupo de Estudos em Aprendizagem e Cognição
2.4 - TABELA DE ENTRADA TRIPLA: Nesta tabela são três as variáveis apresentadas. Observe que na tabela 4, o número de consultas do pré-natal foi dividido por mês., ano e ainda, paridade da gestante. Pode haver tabelas com um número superior de entradas. No entanto, a partir de três entradas, a legibilidade começa a ficar comprometida. Tais tabelas devem, portanto ser evitadas. Se indispensáveis entretanto, um cuidado redobrado deve ser tomado na sua confecção. Tabela 4 - Número de consultas realizadas no Setor de Pré-Natal da Maternidade-Escola da UFRJ durante os anos de 1988, 1989 e 1990. Número de consultas Mês
1988
1989
1990
P
M
T
P
M
T
P
M
T
Janeiro
175
475
650
179
461
640
151
509
660
Fevereiro
122
306
428
135
313
448
115
331
446
Março
227
531
758
180
570
750
160
570
730
Abril
186
624
810
224
576
800
213
577
790
Maio
211
604
815
227
558
785
185
620
805
Junho
196
624
820
170
640
810
211
604
815
Julho
181
517
698
189
511
700
169
536
705
Agosto
194
553
747
174
583
757
129
621
750
Setembro
191
605
796
165
625
790
172
613
785
Outubro
220
540
760
25
190
215*
175
590
765
Novembro Dezembro
216 142
531 478
747 620
178 149
564 501
742 650
163 132
580 498
743 630
2.5 - TABELA DE DISTRIBUIÇÃO DE FREQÜÊNCIA: Esta tabela tem estrutura igual às outras. O que a toma especial são os dados que são apresentados. Nela o que se mostra é o número de ocorrências no grupo estudado, de cada valor ou faixa de valores da variável em estudo. Construir uma destas tabelas, é na realidade, um dos primeiros passos que o pesquisador precisa dar, para a análise de seus dados. Todos os comentários anteriores são válidos para a distribuição de freqüência. Há entretanto, alguns critérios adicionais, que lhe são específicos. As tabelas de distribuição de freqüências são utilizadas basicamente para resumir os dados experimentais. Mais tarde este conceito será explorado em maior profundidade. Por enquanto, o que importa é que o pesquisador se vê frente à uma massa de dados, e necessita entende-la. Digamos por exemplo, que o cientista esteja estudando a duração da gravidez em partos espontâneos1. Para isto, formou o seu grupo de estudo com 100 pacientes normais. Ao final da pesquisa, ele tem 100 valores para a duração da gravidez. Estes valores, no estado bruto, pouco informam. Para que eles se tomem úteis, é necessário 1
Ressalte-se que este é um exemplo meramente didático. Os dados, embora baseados na fisiologia, são hipotéticos.
6
Grupo de Estudos em Aprendizagem e Cognição
trabalhá-los. Por exemplo, construindo uma tabela de distribuição de freqüência. Para isto, ele fará uma tabela onde a coluna indicadora apresentará os diferentes valores assumidos pela variável duração da gravidez. Na segunda coluna serão grafadas as diferentes freqüências dos valores da duração da gravidez. Para cada paciente existe um valor de idade gestacional. Como grafá-los ? Um à um, ou apresentá-los dividos em faixas? O primeiro passo é verificar a sua amplitude de variação. Isto é; identificar os valores máximo e mínimo, subtraindo este daquele. Neste caso, o valor da gravidez de menor duração foi de 35 semanas e a mais prolongada foi de 45 semanas, sendo a amplitude de variação de 10 semanas (45 - 35 = 10). Assim sendo: • AMPLITUDE DE VARIAÇÃO = VALOR MÁXIMO - V ALOR MÍNIMO Uma vez calculada a amplitude de variação, cabe definir o intervalo de classe. Ele é a amplitude de variação de cada classe. Na tabela 52, por exemplo, o intervalo de classe é de uma semana completa. Consequentemente, construímos uma tabela com 10 classes. O número de classes é escolhido pelo pesquisador, segundo o critério de melhor representação do fenômeno estudado. Tabela 5 - Duração da gravidez em partos espontâneos ocorridos entre março e dezembro de 1989, na Maternidade-Escola da UFRJ. Duração da n % Gravidez (*) 35 4 4 36 8 8 37 9 9 38 12 12 39 18 18 40 21 21 41 12 12 42 9 9 43 4 4 44 2 2 45 1 1 Total 100 100 (*) Medida em semanas completas Dados hipotéticos, utilizados para ilustrar a construção de uma tabela de distribuição de freqüências
Tabela 6 - Duração da gravidez em partos espontâneos ocorridos entre março e dezembro de 1989, na Maternidade-Escola da UFRJ. Duração da n % Gravidez (*) 35 - 36 12 12 37 - 38 21 21 39 - 40 39 39 41 - 42 21 21 43 - 44 6 6 45 - 46 1 1 Total 100 100 (*) Medida em semanas completas Dados hipotéticos, utilizados para ilustrar a construção de uma tabela de distribuição de freqüências
Se a função da tabela é estudar a distribuição de freqüências, é fácil entender que tanto números de classes excessivos quanto reduzidos, prejudicam o entendimento. Muitas classes geram tabelas grandes demais, não fornecendo o resumo necessário. Poucas classes redundam em um amontoado de freqüências que não permitem avaliar adequadamente a variação do fenômeno em estudo.
2
Perceba que nesta tabela a sua aparência foi alterada. Seu formato não segue as regras estabelecidas pela ABNT, como as outras tabelas presentes neste texto.Fiz isto porque meu objetivo era compará-la com a de número 6, colocando-as lado a lado. Se ficou pior ou melhor, é uma questão de gosto. Mas veja que usei com moderação os recursos gráficos.
7
Grupo de Estudos em Aprendizagem e Cognição
Compare por exemplo a tabela 5 com a 6. Perceba como os números apresentados nesta última, ressaltaram a concentração de partos espontâneos no período de 39 à 40 semanas. Isto já era possível perceber na primeira tabela, porém não de maneira tão clara. Por outro lado, uma desvantagem da tabela 6 é de que é menos precisa. Ela apresenta, por exemplo, a ocorrência de 1 parto no período entre 45 e 46 semanas. Seria possível imaginarmos que ele ocorreu com 46 semanas. No entanto; da tabela 5, depreendemos que não houve parto algum com 46 semanas. Aquele único parto ocorreu com 45 semanas de gravidez3. Assim, quanto maior o número de classes de uma distribuição de freqüência, maior é a precisão da tabela. Em contrapartida, é menor o seu poder de enfatizar as variações significativas. Cabe ao pesquisador fazer este "ajuste fino", escolhendo o que lhe é mais importante. Isto exige além de bom senso; conhecimento especifico do tema. Durante o processo de construção das tabelas, é muitas vezes difícil, definir "a priori" o número e o intervalo de classes. Na dúvida, inicie sua distribuição com um número maior de classes. Sendo necessário, é possível após reduzi-las com facilidade pelo agrupamento de classes vizinhas. Para isto basta que o intervalo de classe seja constante. Começar com poucas classes, aumentando-as após, exigiria nova tabulação de grande parte do material. Uma segunda vantagem dos intervalos de classe regulares, é que eles permitem não só uma análise visual mais rápida dos dados, como também a realização de cálculos nos dados tabulados. É possível por exemplo, calcular médias ou postos porcentis em uma distribuição de freqüência. Basta assumir para os cálculos, que a totalidade da freqüência da classe ocorre no seu valor médio. Detalhes destes cálculos podem ser obtidos de Levin4. O raciocínio é o mesmo para a construção de gráficos de freqüência. Resta ainda um último comentário relativo aos intervalos de classe. Eles não devem ser superponíveis. Nas tabelas 5 e 6 não existe nenhum caso que pertença simultaneamente a duas classes diferentes. Um erro comum acontece quando se divide a idade em faixas etárias. É freqüente vermos tabelas como a de número 7. Esta deixa margem à confusão. Por exemplo, qual é a classe em que deverá ser colocada uma paciente de 40 anos de idade? Na classe 30 - 40, ou na classe 40 - 50 ? Eis aí um exemplo de superposição. Na tabela 8 é possível ver a maneira correta de definir as faixas etárias Tabela 7 - Distribuição dos casos de abortamento segundo a faixa etária (*) Faixa etária n % 0-10 --------------10-20 --------------20-30 --------------30-40 --------------40-50 --------------50-60 --------------60-7041 --------------(*) Idade medida em anos completos
Tabela 8 - Distribuição dos casos de abortamento segundo a faixa etária (*) Faixa etária n % Até 10 --------------11-20 --------------21-30 --------------31-40 --------------41-50 --------------Acima de 50 --------------(*) Idade medida em anos completos
3
Note que o exemplo é um tanto simplório. Em uma pesquisa real esta situação faria pouco sentido. No entanto, tendo em vista o objetivo didático do presente texto, ele se justifica. 4 Levin, J.: Organização de dados in Estatística Aplicada a Ciências Humanas, Harper & Row do Brasil,1985.
8
Grupo de Estudos em Aprendizagem e Cognição
Na mesma tabela os extremos também geram problemas. Existe por exemplo, alguma idade de zero ano ? Talvez uma criança de 11 meses, mas neste caso, haverá alguma criança desta idade que engravide ? O mesmo ocorre com mulheres de 65 anos. Ante a improvável hipótese de uma resposta positiva, podemos afirmar com certeza que a freqüência será muito baixa. Neste caso seria razoável utilizar um intervalo de classe aberto. Na tabela .8 observamos a classe "até 10 anos", que é um intervalo aberto à esquerda, compreendendo todas as idades até 10 anos, inclusive. Observamos também a classe "acima de 50 anos", que é um intervalo aberto à direita, compreendendo todas as idades à partir de 50 anos, inclusive. Finalmente, a utilização do conceito "idade em anos completos", permite definir com precisão a idade da paciente. Assim uma gestante cuja idade seja de 20 anos e 11 meses será considerada como tendo 20 anos. Será portanto, tabulada na classe de "11 20", e não na de "21 - 30". Ao planejar a construção de uma tabela é preciso definir cuidadosamente cada classe ou categoria, atentando inclusive para as exceções e casos anômalos. Podemos agora começar a tabulação. De início fazendo um rascunho manual, como o da figura 1 (use papel quadriculado para facilitar o seu trabalho). O rascunho, como visto, não exige muito detalhamento. Basta um mínimo de informação, para que depois você possa identificá-lo. Lembre-se que este "mínimo de informação" varia segundo a magnitude do trabalho que está sendo realizado. É um trabalho simples, no qual só você trabalha e tem apenas um ou dois rascunhos? Ou será uma tese, o que pode implicar em dezenas de rascunhos? Ou ainda um estudo multicêntrico, com vários profissionais manipulando os mesmos dados? Pense nisto antes de fazer os seus rascunhos, para depois não ficar perdido em meio a dezenas de folhas soltas de papel.
O produto final poderia ser uma tabela como por exemplo, a de número 5. Cabe ressaltar alguns detalhes. Perceba que a tabela pode ser compreendida sem nenhuma 9
Grupo de Estudos em Aprendizagem e Cognição
referência à este texto. Ela é auto-explicativa. No cabeçalho foram usadas duas abreviações sem a correspondente explicação, vez que ambas são consideradas padrão. A utilização da letra "n" minúscula significa, o número de elementos de uma determinada classe ou amostra. Poderia ser utilizada também a letra “f” minúscula, que significa freqüência absoluta. O sinal de porcentual (%) é bastante conhecido e é calculado pela fórmula:
Como utilizamos um número total de casos igual a 100 o cálculo do porcentual foi fácil, e a coluna correspondente parece dispensável. Na pratica, entretanto, o número total de casos nem sempre é tão conveniente. Nestes casos, a distribuição porcentual auxilia bastante o pesquisador. Em ambos os casos, usamos abreviaturas de conhecimento universal, dispensando portanto maiores explicações. No entanto, há abreviaturas conhecidas apenas por alguns grupos de especialistas. Para os obstetras é fácil traduzir "DPP" por Descolamento Prematuro da Placenta (embora alguns prefiram "Deixe para o Próximo Plantão"). Um pneumologista, no entanto, poderia não lembrar de imediato o seu significado. No entanto; "REI", uma talvez misteriosa sigla para o obstetra, para ele é cristalina. Questionado, explicará facilmente que "REI" é um esquema terapêutico da tuberculose onde se associa a rifampicina o etambutol e a isoniazida. Assim sendo, seja liberal ao fornecer definições de suas diversas abreviaturas. É educado, da parte dos autores, levar em conta em seus trabalhos, o conhecimento dos seus prováveis leitores. Eles provavelmente saberão menos à respeito do seu tema de pesquisa do você próprio.
3 - REPRESENTAÇÃO GRÁFICA: A representação gráfica pode assumir múltiplas formas. Ela é dividida em cartogramas e diagramas. O cartograma é muito utilizado em Saúde Pública. Consiste em um mapa de uma região, dividido em sub-regiões, por intermédio de áreas coloridas ou traçadas. As cores ou os tipos de traçado representam as diferentes freqüências ou valores do fator estudado.
Figura 2 10
Grupo de Estudos em Aprendizagem e Cognição
Segundo Berquó5, "Diagramas são gráficos em que a magnitude das freqüências é representada por certa mensuração de uma determinada figura geométrica." Para simplificar, três são os tipos principais de gráficos: • Gráficos Setoriais • Gráficos de Barras • Gráficos Lineares Sobre estes três, faremos uma discussão um pouco mais aprofundada. Há alguns outros que neste texto serão apenas apresentados. São eles o gráfico polar, o diagrama de dispersão, o semi-logaritmico e finalmente o fluxograma. 3.1 - GRÁFICO POLAR: Gráfico POLAR JAN
No gráfico polar, em forma de círculo, as freqüências são representadas por uma linha circular, e as suas variações pela magnitude do raio do circulo. Obtém-se no final um circulo irregular. É útil quando estudamos uma variável que sofre variações cíclicas.
FEV
DEZ
MAR
NOV
OUT
ABR
MAI
SET JUN JUL Variação anual da doença X AGO
Figura 3 3.2 - DIAGRAMA DE DISPERSÃO: No diagrama de dispersão, se estuda o tipo de correlação existente entre duas variáveis. É muito útil como etapa inicial de uma análise de regressão. Através dele é possível suspeitar da forma da relação; se linear ou não. Isto é fundamental para a escolha da técnica de regressão, mas isto é outro assunto. No gráfico ao lado6 estuda-se a relação entre altura e peso. É fácil perceber como ao aumento da altura corresponde um aumento do peso. Mais que isto, que a relação é aproximadamente linear. Isto é, uma linha crescente poderia representar o conjunto de pontos. Neste caso, poderíamos, pelo menos de forma grosseira e preliminar que a relação é linear e positiva: para cada aumento de aumento 5
Berquó, ES; Souza, JMP de; Gotlieb, SLD: Cap. 2 - Levantamento de Dados in Bioestatística, São Paulo,EPU, 1980 6 Retirado de http://tmsyn.wc.ask.com/r?t=an&s=v8&uid=292a4683492a46834&sid=392a4683492a46834&o=0&qid= 0D90A2A150D4AF2DF4DA4E533EE38022&io=1&sv=0a300578&ask=%22scatter+plot%22&uip=92a 46834&en=pi&eo=3&pt=&ac=24&qs=0&pg=1&u=http://support.sas.com/rnd/datavisualization/Java.htm l em 21/11/2006
11
Grupo de Estudos em Aprendizagem e Cognição
de altura há um correspondente aumento de peso. Chamo sua atenção que eu não estou dizendo que é o aumento da altura que é a causa do aumento de peso. É razoável que você pense nisto, mas afirmar já é uma outra história.
3.3 - GRÁFICO SEMI-LOGARITMICO: Log
Linear
Semi-log Linear
Linear
Os gráficos semilogaritmicos são utilizados quando se deseja comparar duas variáveis cujas grandezas são muito diferentes entre si. Pessoas visualizam melhor as tendências, quando elas se expressam em linhas retas do que em curvas. O uso de um papel semi-logaritmico, pode em muitos casos, "retificar" algumas linha curvas.
Figura 5 3.4 - ALGORITMO: Os algoritmos, de intensa utilização em informática, são pouco conhecidos em medicina. Eles permitem estudar e representar processos. Por exemplo; o processo do diagnóstico do trabalho de parto. Quais são os sinais e sintomas significativos? Como eles se relacionam? Quais são as etapas do diagnóstico? Estas são algumas questões, que um algoritmo pode responder graficamente.
COLOCAR O TERMÔMETRO AGUARDAR 3 MINUTOS
SIM
CHAMAR O MÉDICO
> 37,5° C
NÃO
AGUARDAR 2 HORAS
Figura 6
12
Grupo de Estudos em Aprendizagem e Cognição
3.5 - GRAFICOS SETORIAIS: É também chamado de "gráfico de torta", porque uma vez desenhado, lembra uma torta cortada em fatias. Consiste em um circulo dividido por raios, que, partindo do centro, formam setores de tamanho variado. A área destes setores é proporcional à freqüência que se deseja representar.
Figura 7 - Gráfico setorial baseado nos dados da tabela 5 O gráfico setorial é particularmente útil para representar tanto dados categóricos como discretos. A figura 7 apresenta um gráfico setorial construído a partir dos dados da tabela 5. Perceba como o impacto visual é muito maior do que o proporcionado por uma tabela. É possível, de imediato perceber o todo (o círculo inteiro) e também como se distribuem as partes que o compõem (os setores de diferentes áreas). Para obter este efeito, é necessário entretanto que o número de setores não seja muito grande. Compare o gráfico da figura 7 com o da figura 8. Aqui cabem os mesmos comentários feitos, linhas acima, em relação as tabelas 5 e 6. Quanto menor o número de setores, maior é o impacto visual e menor a precisão. E a recíproca é verdadeira.
Figura 8 - Gráfico setorial baseado nos dados da tabela 6 13
Grupo de Estudos em Aprendizagem e Cognição
Já dito, as freqüências são proporcionais às áreas dos setores que as representam. Por outro lado, a área de um setor de circulo, é proporcional ao ângulo formado pelos dois raios que formam este setor. Na figura 8, por exemplo, o setor que representa a freqüência no período de 39 a 40 semanas é formado por dois raios, que partindo do centro formam entre si um ângulo de 140,4 graus. Já o setor do período de 41 a 42 semanas tem um ângulo de 75,6 graus. O período de 43 a 44 semanas tem ângulo de 18 graus. E assim por diante. Para construir um gráfico setorial, portanto, basta calcular este ângulo 7 . Feito isto, compasso, régua e transferidor resolvem a questão. O cálculo do ângulo não exige mais do que duas operações: 1- Se já não o fez, obtenha as porcentagens do que você quer representar. 2- Multiplique por 3,6 estas porcentagens. O resultado é o ângulo desejado. Para não fugir das fórmulas, veja abaixo: • Ângulo central do setor = Porcentagem x 3,6 3.6 - GRÁFICOS DE BARRAS: O gráfico de barras pode representar dados de qualquer nivel de mensuração. Dados categóricos, discretos ou contínuos são igualmente bem representados. O histograma tem portanto amplo uso na comunicação científica s. Consiste na colocação de retângulos sobre o eixo das abcissas. Cada retângulo representa uma categoria ou elemento da variável independente. A sua altura mostra a freqüência ou magnitude da variável em estudo. A figura 9 mostra um histograma construído à partir dos dados da tabela 5. Perceba como todos os retângulos tem a mesma largura. A única dimensão que varia é a altura. Isto toma o gráfico mais legível. Lembre-se disto ao fazer os seus próprios gráficos.
Figura 9 - Histograma baseado nos dados da tabela 5
7
Usar um software gráfico especializado em gráficos estatísticos te poupa este trabalho. Por outro lado, te obriga a aprender a usá-lo.
14
Grupo de Estudos em Aprendizagem e Cognição
No eixo horizontal (abcissas), marcam-se os valores ou as categorias, quando possível em ordem crescente. No eixo vertical (ordenadas), localizam-se as freqüências relativas à cada categoria ou valor. Alguns autores discriminam o termo histograma de gráfico ou diagrama de barras. No presente texto, eles serão usados como sinônimos. Esta discriminação se faz por uma sutileza de representação. Na figura 9 é possível perceber que as barras retangulares apresentam-se unidas. Isto é feito porque os dados representados são discretos. O mesmo aconteceria se eles fossem contínuos. No caso dos dados categóricos, entretanto, as barras são desenhadas separadas umas das outras. Isto enfatiza o fato dos dados estarem classificados em categorias estanques, separadas entre si8. Assim é que o termo histograma é às vezes usado para referir-se ao gráfico que apresenta dados oriundos de variáveis discretas ou contínuas, pois neste caso não há separação entre um dado valor e aquele imediatamente superior ou inferior. Já quando os dados são categóricos, esta separação existe e por isto as barras grafam-se separadas. Neste caso então há autores que preferem o termo “Diagrama de Barras ou colunas” para enfatizar este fato. 3.7 - GRÁFICOS LINEARES: Assim como o histograma, os gráficos lineares também se utilizam dos eixos ortogonais. Neles porém é uma linha irregular que mostra a variação do fenômeno estudado. Em conseqüência, é razoável aceitar que estão mais indicados quando se deseja representar uma variável contínua.
Figura 10 - Polígono de Freqüência, baseado nos dados da tabela 5 Como com o histograma, duas são as situações possíveis. Ou estamos estudando o comportamento isolado de uma variável, ou então, esta em função de outra. No primeiro contexto, temos um caso particular; o Polígono de Freqüências. A figura 10 apresenta um exemplo de polígono de freqüências, construido à partir dos dados da tabela 5. Perceba que no eixo horizontal estão os valores da variável em estudo (duração da gravidez). A freqüência destes valores (número de casos) localiza-se 8
Isto talvez seja certo purismo de minha parte. Você verá frequentemente esta regra sendo desobedecida, mesmo em publicações sérias, sem que isto implique em maiores conseqüências.
15
Grupo de Estudos em Aprendizagem e Cognição
no eixo vertical. O Polígono de Freqüências representa a variação das freqüências de uma variável, considerando-se na sua construção a freqüência absoluta. No caso de utilizarmos a freqüência acumulada9, temos o Polígono de Freqüências Acumuladas que é também conhecido como Ogiva de Galton . No caso em que estudamos o comportamento de uma variável em relação à outra, colocamos no eixo horizontal a variável independente e o no vertical a dependente. A figura 11, por exemplo, mostra um gráfico linear10 construído à partir dos dados da tabela 1. É possível visualizar mais claramente que na tabela, como varia o movimento do ambulatório, ao longo do ano. Neste caso a variável independente é o tempo (mês do ano), em função da qual se modifica a variável dependente (número de consultas).
Figura 11 - Gráfico Linear, construído a partir dos dados da tabela 1
4 - COMO PLANEJAR A APRESENTAÇÃO DOS DADOS: Quando um pesquisador constrói um gráfico ou tabela, a pergunta mais importante que ele deve responder é: - Que informação eu desejo transmitir? É a partir dai, que ele escolherá a forma mais efetiva de comunicar. Pode parecer; mas nem a pergunta nem a resposta são óbvias. É freqüente observarmos estudantes, que , ao final da pesquisa, apresentam diversas tabelas feitas quase ao acaso. Mesmo quando as fazem tecnicamente corretas, eles são incapazes de dizer por que e para que elas foram construídas. Voltemos ao exemplo do cientista que estudou a duração da gravidez em partos espontâneos. Ao final da pesquisa ele tem nas suas anotações as durações dos cem casos estudados. Agora o que fazer? Que informações ele deve transmitir ? 9
Freqüência acumulada é a obtida pela soma de todas as freqüências de todas as classes até a atual. Por exemplo; na tabela 5, a freqüência acumulada da classe 35 semanas é 4, com 36 semanas é 12 (4+8), com 37 semanas é 21 (4+8+9), e assim por diante até 45 semanas quando a freqüência acumulada atinge 100. Este valor corresponde à soma de todas as freqüências absolutas anteriores até a atual. 10 Alguns autores, considerando que a variável "número de consultas" não é contínua e sim discreta, construiriam este gráfico sem linhas, marcando apenas os pontos.
16
Grupo de Estudos em Aprendizagem e Cognição
A primeira fase é a de estudar os dados. Neste aspecto, são os dados que devem "trans¬mitir" à ele alguma informação. Assim a primeira resposta seria "Preciso saber como variam os valores da duração da gravidez.". Uma figura como a de número 7, poderia responder à esta necessidade. Ela fornece a amplitude de variação, e dá alguma noção da distribuição dos valores. Em uma fase seguinte. a pergunta pode ser outra. Por exemplo: "- Quais são os valores típicos dos meus dados ?". Neste caso poderíamos utilizar um gráfico setorial como o da figura 8. Nele é possível perceber claramente a concentração de valores em tomo de 39 e 40 semanas. Perceba portanto que questionar-se da maneira indicada acima não é tolice ou perda de tempo. É uma etapa fundamental do seu processo de pesquisa e. ou comunicação de dados. O estudo das diferentes formas de apresentação, permite perceber suas diferentes vantagens e desvantagens. Uma tabela, por exemplo, é imbatível ao apresentar valores diversos. Em comparação com os gráficos ela é mais precisa e completa. Dificilmente uma comunicação científica pode prescindir de pelo menos uma tabela bem construída. No entanto elas tendem a ser ilegíveis pela quantidade de informação que elas apresentam. É necessário um esforço especial para torná-las atraentes. Elas devem ser tão claras quanto possível. Para isto devem ser o resumo das observações feitas, permitindo comparação entre diferentes aspectos do fenômeno estudado. Devem ser o mais possível, curtas. As tabelas são úteis porque apresentam resumo das estatísticas relevantes, mas não interrompem o fluxo do texto. Por exemplo, na tabela 2 listamos algumas convenções de preenchimento de casos especiais. Por isto, não repita no texto informações já apresentadas na tabela. Longas tabelas deveriam ser proscritas. Se inevitáveis, coloque-as em um apêndice. Há duas maneiras possíveis de reduzi-las. Uma delas é dividir as tabelas. Outra consiste em eliminar colunas desnecessárias. Possivelmente a mesma informação poderá ser transmitida mais adequadamente. Suponha por exemplo, que você construiu uma tabela com as taxas de mortalidade de dezenas de doenças. Ao terminá-la verificou que ela ficou grande demais. Para reduzi-la tente separar as doenças por algum critério (p/ ex: Doenças da infância, adolescência, maturidade e velhice). Assim, haverá uma tabela para cada grupo. Um exemplo típico de coluna dispensável é a que apresenta dados que podem ser obtidos com facilidade de outras colunas. Ou então tabelas que apresentam o número de registro do paciente. Ele, em geral, só é necessário para que você possa, eventualmente, retomar às suas próprias fichas. Exceto em casos especiais, ele não tem maior interesse para o leitor. No esforço de tomar as tabelas mais atraentes, há algumas regras gerais que podem ser usadas: 1. Os cabeçalhos das colunas devem ser concisos e esclarecedores. 2. Apresente a tabela, sempre que possível na vertical. Evite a apresentação horizontal. 3. Utilize o minimo de linhas possível. Para separação de texto ou informação numérica, é mais eficiente usar espaços. 4. Todos os números devem ser alinhados pela virgula decimal. 5. Não esqueça de explicitar as unidades dos valores numéricos. 6. Não torne os números ilegíveis. Um espaço duplo a cada 5 ou 10 linhas pode tomar a coluna visualmente mais atraente. 7. Se os dados de duas colunas devem ser comparados, coloque-as juntas, se possível. 8. O título da tabela deve ser auto-explicativo. 17
Grupo de Estudos em Aprendizagem e Cognição
9. Lembre-se sempre, das necessidades e conveniências do leitor. Ao contrário das tabelas, gráficos são visualmente atraentes. No entanto não tem a precisão das tabelas. Muito importante à respeito de gráficos, é que eles nunca provam nada. A impressão visual é falha e tendenciosa. Compare por exemplo os gráficos da figura 12 (A e B). Ambos representam o mesmo fenômeno. A mera mudança de escala feita na figura 12B, entretanto, toma o fenômeno aparentemente menos intenso. A prova é sempre numérica, baseada nos dados das tabelas. Por isto sempre que houver interesse em comparar duas curvas, elas devem ser construídas na mesma escala. Neste caso, colocá-las lado a lado, ou pelo menos na mesma página.
Figura 12 - Distribuição da duração dos partos, apresentada em duas escalas (A e B) Outra maneira de mascarar resultados é não incluir o zero na escala. Em geral isto é feito de boa fé, quando os dados situam-se em uma faixa de valores muito altos. Manter a escala e incluir o zero tormaria o gráfico grande demais. A solução nestes casos é "encolher" o eixo pelo uso de duas linhas paralelas, ou então de uma linha angulada. Por exemplo: •
|-----------/\/\/\/\/\/\/\--------|---------------|-------- . . . 0 1250 1260
•
|-----------/ /----------------|---------------|-------- . . . 0 1250 1260
Os gráficos setoriais tem a sua melhor indicação quando procuram representar visualmente as partes representativas de um todo. Por exemplo, a composição racial de um pais, as fontes de financiamento de uma instituição de pesquisa, etc. No entanto esta indicação é perdida, quando o todo écomposto de muitas partes. Compare os gráficos das figuras 7 e 8. Perceba como o último é mais esclarecedor da concentração de valores no período de 39 à 40 semanas. Este efeito é tão mais intenso, quanto menor for o número de classes em que o fenômeno for sub-dividido. A tabela 7 lista algumas recomendações para a construção de gráficos. 18
Grupo de Estudos em Aprendizagem e Cognição
•
•
• • •
Tabela 7 - O que fazer e o que não fazer ao construir gráficos SIM NÃO • Não omita o zero. Se inevitável, Use papel de gráfico. Isto aumenta a precisão. O eixo horizontal é o tome o fato perfeitamente claro da variavel independente • Não faça traços borrados. As Selecione as escalas com cuidado, linhas devem ser claras e precisas de modo à preencher todo o papel, • Não coloque legendas no corpo do e não apenas um pequeno canto gráfico. Se necessário ressaltar Centralize o gráfico algo, escreva uma legenda e refiraColoque títulos adequados, nomes a no gráfico com uma seta ou das variáveis, unidades, etc asterisco Indique a fonte do material
5 - CONCLUSÃO: Gráficos e tabelas são formas de comunicar. A comunicação inclue três elementos, dos quais apenas dois você pode dominar: os seus dados e a sua técnica para comunicalos. O seu alvo, que é o leitor, entretanto, está fora de alcance. Sem ele sua atividade é um exercício esteril e inútil. Tomando-o como ponto de partida e chegada, aperfeiçoe sua técnica. Assim você poderá atingi-lo com mensagens claras, definidas e diretas.
19