Estratégias para armazenamento de dados biológicos e ambientais: experiências do PELD/LTER e PPBio Flávia Costa (INPA/PPBio/PELD Amazônia) Flávia Pezzini (INPA/PPBio/PELD Banco de Dados) William Magnusson (INPA/PPBio)
Bancos x Repositórios • Bancos de dados são específicos para cada Jpo de dado • Pode ser relaJvamente simples montar e manejar um banco de dados quando o Jpo de dado é simples e não muda com o tempo – p. ex. GENBANK ou bancos de dados de coleções de espécimes
Exemplo BRAHMS – Botanic Research and Herbarium Management System
Armazenamento de dados de coletas biológicas • Já existem muitas inciaJvas para armazenar dados de coletas biológicas • Várias coleções (Herbários, Museus) tem feito esforços para colocar suas informações em bancos padronizados e que foram adotados por consenso (p.ex BRAHMS e Specify)
Onde invesJr? • Sendo assim, não faz senJdo inventar novos sistemas para armazenamento de dados de coletas • Os esforços atuais devem ser para capacitar os gerentes de coleções a usar estes sistemas • e em interligar as coleções on line, como já tem sido feito em alguns lugares
h_p://ppbio.inpa.gov.br Â
Dados complexos • Dados de inventários biológicos são mais variáveis e precisam de abordagens mais específicas. • É muito dibcil prever todos os possíveis Jpos de dados e estrutura das amostragens a priori, e portanto, definir uma estrutura de banco de dados que funcione para tudo
• Não é possível ter 1 banco de dados para tudo • Mas é possivel ter 1 repositório para tudo e deste, vários bancos de dados podem ser construídos
Ma_ Jones -‐ Na#onal Center for Ecological Analysis and Synthesis (NCEAS)
Repositórios • Um repositório nao é um “saco” ou “armário” Metadados são informações que onde os dados são jogados e guardados sem descrevem os dados nehuma regra. • e O sqem ue fe az dos orepositórios ocais que ngenhum uardam les, s dados nlão tem dados é qsue eles uma valor com ou quualidade Jlidade, eja lá tqem ual for o grande preocupação com os metadados.
sistema de armazenagem.
Linguagem para Metadados • Já foram desenvolvidas linguagens e modelos para metadados de várias disciplinas • para dados de inventários biológicos e ambientais, um bom modelo é o Ecological Metadada Language (EML) desenvolvido pelo Knowledge Network for Biocomplexity (KNB)
Knowledge Network for Biocomplexity (KNB) hHp://knb.ecoinformaJcs.org/
• Morpho: criar, administrar e comparJlhar os metadados
• Metacat : armazenamento, busca, recuperação dos dados
Chaves Primárias • Precisam ser suficientemente detalhadas para que os dados possam ser integrados
O “filtro humano”
Como funciona hoje Campo
Metadados 30 dias
1 ano Revisão
Análise
Dados
Combinação de várias tabelas de dados
Revisão
Site
Para um repositório de dados funcionar, é necessário: I. “Equipamentos” Pessoas dedicadas a receber e checar os dados e metadados, dialogar com os geradores dos dados para corrigir os erros e finalmente disponibilizar os dados e metadados on line Servidores para armazenar os dados e metadados
Para um repositório de dados funcionar, é necessário: II. Decisões • Arquitetura da rede de recebimento e disponibilização dos dados (recomenda-‐se uma rede com um ponto central, mas vários pontos regionais, interligados) • Variáveis mínimas para as chaves primárias das tabelas de dados (descritores de tempo, espaço, e responsáveis pela amostragem, p.ex) • Adoção de algum(s) modelo de metadados
Para um repositório de dados funcionar, é necessário:
III. Capacitação • Das pessoas dedicadas a gerir os dados e metadados, para serem capazes de detectar os erros e dialogar com os geradores dos dados • Dos fornecedores de dados (pesquisadores e afins), para entender o que são e como escrever metadados, e para construir as tabelas de dados de forma que as informações originais não sejam sumarizadas e que as chaves primárias importantes estejam presentes
Sumário e Recomendações • Precisamos de um sistema simples, fácil de usar e econômico, para um repositório para os novos dados a serem coletados, independente de resgate de informações pretéritas. • Os usuários (tomadores de decisões) precisam ser envolvidos nas decisões sobre a estrutura do repositório, especialmente em relação às chaves primárias.
OBRIGADA! hHp://ppbio.inpa.gov.br flaviacosta001@gmail.com flaviapezzini@gmail.com bill@inpa.gov.br