Collectioneren van data – samenvatting van drie studies Onderzoeksdata spelen een steeds belangrijker rol in de wetenschapsbeoefening. De voortschrijdende informatie technologie biedt vele mogelijkheden voor het delen van informatie en data en kan een belangrijke impuls vormen voor verder onderzoek. Daarom is het van groot belang dat onderzoeksdata bewaard en permanent toegankelijk blijven. Omdat preservering van data nog een vrij nieuw terrein is voor de instellingen voor hoger onderwijs zijn in het kader van SURFshare drie studies uitgezet die zich richten op het vraagstuk welke data behouden moeten blijven. De drie studies, die zijn uitgevoerd door DANS samen met 3TU Data Centre, Universiteit Leiden en het IISG, het Internationaal Instituut voor Sociale Geschiedenis van de KNAW, hebben voor verschillende wetenschapsgebieden richtlijnen opgeleverd die beslissingen over selectie en preservering van data ondersteunen en vergemakkelijken. De drie studies zijn:
Data Curation in Arts and Media Research (Universiteit Leiden) - schetst een beeld van de huidige stand van zaken rond het beheer en het hergebruik van onderzoeksdata binnen de kunstgeschiedenis, de vergelijkende kunstwetenschap en de mediastudies.
IISH Guidelines for preserving research data: a framework for preserving collaborative data collections for future research (IISG) – volgt onderzoekers in de dynamiek van gegevensverzameling in online samenwerkingsomgevingen.
Selection of Research Data; Guidelines for appraising and selecting research data (DANS en 3TU) - bevat de laatste stand van zaken op het gebied van het selecteren van onderzoeksdata, gebaseerd op literatuuronderzoek, een aantal interviews met belangrijke spelers en de ervaringen van DANS en het 3TU Data centrum. Hier zijn de algemene richtlijnen opgesteld voor het beoordelen en selecteren van onderzoeksdata.
Hieronder volgen enkele van de bevindingen uit de drie studies. Data opslaan is belangrijk Onderzoekers onderkennen het belang van het opslaan van data in een data-archief: het verlost hen van de last zelf hun data te beheren. Daarbij maakt open access van data hergebruik van data mogelijk wat leidt tot betere en veelomvattender data analyse. Verder wordt verificatie van claims en conclusies van andere publicaties eenvoudiger. Obstakels voor hergebruik van data Hergebruik van data is nog geen gemeengoed. Een obstakel hierbij is dat het momenteel moeilijk is te ontdekken welke datasets er al bestaan. Onderzoekers in de kunst- en mediawetenschappen zijn nog niet zo scheutig met het vrijgeven van data. Zij willen dit pas doen na een officiёle publicatie omdat het vervaardigen van databanken of modellen veel intellectuele inspanning vergt die niet beloond wordt. De waarde van humaniora studies is vaak gerelateerd aan de uniekheid of originaliteit van de ideeën die door het delen van data ondermijnd kan worden. Het hergebruik van data van collega’s is voornamelijk gebaseerd op vertrouwen. Ook blijkt dat eigendomsrechten en privacyregels de beschikbaarheid, toegang en het hergebruik bemoeilijken. Daarom wordt geadviseerd om data zoveel mogelijk open toegankelijk te maken. Door het ontbreken van vaststaande procedures of gedragsregels gebruiken onderzoekers in kunst- en mediawetenschappen vaak eigen inzichten bij het ontwerpen en organisatie van hun datasets. Het is hoogst onwaarschijnlijk dat binnen dit wetenschapsgebied in de toekomst kwaliteitscriteria voor data ontwikkeld zullen worden. Ondanks het ontbreken van criteria hiervoor kunnen wetenschappers toch de kwaliteit van data beoordelen. Begin vroeg met selecteren van data om te bewaren en beheren De rapporten geven aanwijzingen voor workflows voor het bewaren en beheren van onderzoeksdata. Selectie van data moet bij voorkeur plaatsvinden op het moment dat de data gecreëerd worden, mogelijk op grond van een datamanagement beleidsplan of infrastructuur.
Benadrukt wordt dat het belangrijk is om tijdens of kort na de vervaardiging van de data metadata toe te kennen. Kwalitatief goede metadata is onmisbaar voor effectieve bewaring. Er kunnen verschillende redenen zijn om onderzoeksdata te bewaren: verplichtingen van financiers of andere partijen, uniciteit van de data of een belang voor de wetenschap of het cultureel erfgoed. In al deze gevallen, maar zeker in het geval waar meerdere onderzoekers aan een dataverzameling werken, moet de keuze welke data te bewaren vanuit het perspectief van het onderzoeksproces in zijn geheel genomen worden. Hierbij moet gekeken worden naar de betrokkenen in het proces en hun verantwoordelijkheden. Verschillende aspecten spelen een rol Het selectieproces bevat verschillende aspecten. Gedacht wordt hierbij aan punten van technische en juridische aard (zoals data formaten, software en auteursrechten), maar ook metadata, mate van bewerking van de data, infrastructuur en kosten. Over al deze punten moet er duidelijkheid bestaan v贸贸r een definitief selectiebesluit kan worden genomen. Aansluiten bij de werkomgeving van onderzoekers Het verzamelen van data, de verwerking en de analyse van de data en de publicatie van het resultaat is een iteratief proces. Vanuit dit perspectief bevelen de auteurs van de studies aan om de infrastructuur van een data-archief naadloos aan te laten sluiten bij de werkomgeving van de onderzoekers. Omdat onderzoekers niet alleen producenten maar ook consumenten van data-archieven zijn, kunnen data-archieven geen selectiecriteria toepassen buiten het onderzoeksproces. Door aan te sluiten is de onderzoekscommunity het best gediend en blijft zij de controle over de onderzoeksdata behouden. Voor data-archieven is het verder belangrijk dat zij voldoende informatie over de datasets hebben. Vandaar dat metadata een belangrijke rol speelt. Ook wordt het belang van best practices in versiebeheer en referential integrity van de datasets benadrukt. Ieder wetenschapsgebied heeft specifieke onderzoeksdata Uit de studies komt verder naar voren dat de wetenschapsgebieden hun eigen discipline specifieke onderzoeksdata kennen. Zo zijn voor historici bijvoorbeeld digitalisering en lange termijn robuuste, met bronnen corresponderende, datasets de belangrijkste investeringen voor de lange termijn. Dit kan niet bewaard en beheerd worden door individuele onderzoekers maar wel door een gedeelde aanpak van de instellingen samen. De bronnendatabestanden en bewerkte datasets zouden gedeponeerd moeten worden in een duurzaam data-archief. Datasets die gebruikt worden voor analyse worden samen met de publicatie gepubliceerd vanwege de relatie hiertussen. Het is aan te bevelen om datasets voor analyse zo klein mogelijk te houden zodat goed verwezen kan worden naar het bronbestand en bewerkte set. Van gedragslijnen naar praktische richtlijnen Tenslotte wordt opgemerkt dat de gedragslijnen omgezet moeten worden in praktische richtlijnen omdat de enige manier is om gecontroleerde overdracht, preservering en beschikbaarheid van data te managen.