Decennia aan Data Zonder data geen wetenschap. Dataspecialist Otto Lange zorgt e rvoor dat de verzamelde onderzoeksgegevens ook vindbaar zijn voor andere wetenschappers.
Tekst: Peter de Jong
D
e zes cohorten van het CID hebben de afgelopen decennia een enorme berg gegevens verzameld. Een belangrijke doelstelling van het CID is dat die data aan elkaar gekoppeld kunnen worden en dat andere wetenschappers hiervan kunnen profiteren. Aan het team van het project Connecting Data in Child Development (CD²) de taak deze schatkist zichtbaar te maken. Dat is een hell of a job, want hoe breng je orde aan in decennia aan data? En hoe bouw je vervolgens een systeem waarin iedereen in staat is om die gegevens uit de CID-schatkist te vissen? Het toverwoord: metadata. Aan het woord is Otto Lange (1965), technisch coördinator van CD². 10 | New Scientist | Special CID
Wat moeten we ons voorstellen bij zo’n enorme zoekmachine?
‘Met onze online zoekmachine kunnen geïnteresseerde wetenschappers in de databanken zoeken van de zes CID-cohorten. De eerste stap was het in kaart brengen van alle gegevens die honderden onderzoekers hebben verzameld over de jaren. Die zijn vaak enorm gevarieerd. Elke discipline gebruikt eigen vaktermen en de data staat soms bekend onder verschillende noemers. Het was dus een hele klus. Daarna volgde het overleg over de zogenoemde metadata – de gegevens waaruit onze zoekcatalogus bestaan. Het CD²-project heeft uiteindelijk meer dan drie jaar geduurd en beschrijft de ontwikkelingsgegevens van 186.400 kinderen.’ Metadata? Wat is dat precies?
‘Metadata zijn beschrijvingen van data. Bij data kun je denken aan video's, IQ scores, vragenlijsten, DNA-materiaal of hersen-
scans. Metadata zijn de karakteristieken van die data, bijvoorbeeld door wie zijn die data verzameld, en als onderdeel van welke studie? Het kan ook gaan om achtergrondinformatie over de deelnemers of het apparaat en de instellingen waarmee is gemeten. Eigenlijk zijn het dus data over data. Dit zijn belangrijke gegevens die je als wetenschapper wilt weten als je andermans data wilt hergebruiken. Het beschrijft ook onder welke termen deze gegevens nog meer bekend zijn, dit is met name belangrijk als je data wilt opzoeken.’ Kun je een voorbeeld geven?
‘Stel, een gedragswetenschapper uit Groningen doet onderzoek naar het sociaal welbevinden van Groningse pubers tijdens de covidpandemie, en is op zoek naar vergelijkingsmateriaal in de rest van Nederland. Om haar naar de juiste studies te leiden waar ze die data kan vinden, hanteren