Hoe ga je om met grote hoeveelheden data?

Page 1

8-11-2017

Hoe ga je om met grote hoeveelheden data? Astronoom Marco de Vos pleit voor selectief meten en bewaren van data. - NEMO Kennislink

Hoe ga je om met grote hoeveelheden data? Interview met astronoom Marco de Vos Auteur: Malini Witlox

We verzamelen steeds meer data. Maar hoe moet je die gegevens verwerken? Astronoom Marco de Vos, managing director bij Astron, het Nederlands instituut voor radiosterrenkunde, pleit voor het stellen van een gerichte vraag. Van de boodschappen die we wekelijks doen in de supermarkt tot ons reisgedrag per trein of auto. Overal wordt data van verzameld. Het begon met megabytes (in één megabyte past een lekker dik boek), liep toen op naar gigabytes (één gigabyte is al gelijk aan vijftig boekenplanken vol romans) en nu verzamelen we terabytes aan data (één terabyte is een goede universiteitsbibliotheek). Hoe ga je om met die grote hoeveelheid informatie en hoe scheid je het kaf van het koren? Astronoom Marco de Vos, managing director bij Astron, het Nederlands instituut voor radio-sterrenkunde, weet als geen ander in Nederland hoe je dit doet. "Data verzamelen is het probleem niet. Het gaat om de vraag wat je met die gegevens doet. Hoe verwerken en interpreteren we gegevens.” In zijn vak worden grote hoeveelheden data gegenereerd. Astron exploiteert twee radiotelescopen. De Westerborktelescoop (https://www.nemokennislink.nl/publicaties/naar-de-sterren-luisteren-inhet-bos) deed het naar verhouding nog rustig aan. Met deze telescoop, gebouwd in 1970, werd een gigabyte informatie per seconde binnengehaald. Allemaal informatie over sterrenstelsels, pulsars (https://www.nemokennislink.nl/publicaties/pulsar-geen-vuurtoren-maardiscolicht) en magnetische velden in de kosmos. Uiteindelijk leverde dat na 45 jaar gebruik een paar terabyte aan data op, aldus De Vos. Met de Lofartelescoop

Met behulp van telescopen worden terabytes aan data over het sterrenstelsel vastgelegd. Zo legde de Kitt Peak telescoop de komeet P21/Giacobini-Zinner vast.  N.A.Sharp/NOAO/AURA/NSF (https://www.noao.edu/image_gallery/html /im0408.html)

(https://www.nemokennislink.nl/publicaties/lofar-s-werelds-grootsteradiotelescoop), in 2012 in gebruik genomen, gaat het verzamelen van data vele malen sneller. In twee jaar tijd werd er drie Petabyte aan data geworven (Op één petabyte past de inhoud van duizend goede

https://www.nemokennislink.nl/publicaties/hoe-ga-je-om-met-grote-hoeveelheden-data/

1/2


8-11-2017

Hoe ga je om met grote hoeveelheden data? Astronoom Marco de Vos pleit voor selectief meten en bewaren van data. - NEMO Kennislink

universiteitsbibliotheken). “Het zijn dan nog ruwe gegevens,” aldus de astronoom. De data moet nog bewerkt worden tot de informatie die de onderzoekers nodig hebben. Er wordt anno 2016 zowel in de wetenschappelijke en commerciële wereld veel data verzameld, maar onderzoekers realiseren zich niet wat nodig is om echte kennis en informatie uit die data te halen, meent De Vos. Dat vraagt om kennis van de context: “Het belangrijkste is dat je weet wat je meet en wat je doet. Je kunt bijvoorbeeld wel data van smartphones gebruiken voor een onderzoek naar rijgedrag, maar dan moet je je wel realiseren dat je met die keuze een hele leeftijdsgeneratie buitensluit. Als je je dat niet beseft, baseer je je conclusie op foute informatie. Je moet fouten herkennen.”

Indikken De sterrenkundigen van Astron zoeken een bepaald signaal uit het heelal en willen een plaatje maken van het sterrenstelsel. “Allereerst worden storingsfactoren (zoals sterrenstof en polariserende signalen vanaf de aarde) gescheiden van de echte data. Tien procent wordt dan weggegooid, daarna volgt de indikkingsfase waarbij bekeken wordt welke data antwoord geeft op de gerichte vraag van de wetenschappers.” Die gerichte vraag is essentieel, legt De Vos uit. “Je kunt wel alles verzamelen en meten, maar soms zie je net datgene wat je hebben wilt over het hoofd. Beperk je onderzoek, focus je. En verzamel dan alleen de gegevens die je nodig hebt.” De Lofartelescoop ziet doorlopend de hele hemel op een heleboel frequenties. "Als je een overzichtskaart van de hele hemel wilt maken, dan kijk je naar alle richtingen, maar je middelt de frequenties. “Als je één bepaalde pulsar onderzoekt, dan gooi je gegevens uit alle andere richtingen weg, maar bewaar je wel alle frequenties van die ene plek.”

Er niet meer bij kunnen De Vos maakt zich zorgen over de verzamelwoede van onderzoekers als het om data gaat. Van een situatie waarbij bijna geen gegevens werden bewaard, gaan we naar een situatie waarbij iedere bit bewaard wordt. Een kostbare zaak.

Met behulp van telescopen worden terabytes aan data over het sterrenstelsel vastgelegd. Iedere sterrenwacht heeft een eigen telescoop. Zo staat in Utrecht de Sonnenborgh.

“Niet alleen aan serverkosten, maar ook aan onderhoudskosten. We moeten bewust de vraag stellen wat  Jordi Huisman, Sonnenborgh – museum beter is: alles bewaren, of af en toe & sterrenwacht opnieuw meten. In de loop der jaren heb je te maken met veranderende bestandsformaten, besturingssystemen die gemoderniseerd worden. We kennen genoeg voorbeelden waarbij mensen door conversieproblemen niet meer bij de gewenste bestanden kunnen. Als je oude data bewaart, zul je ook oude computerprogramma’s moeten bewaren of iemand aan moeten stellen die deze conversie van oud naar nieuw kan verzorgen.” Sommige wetenschappers willen oude data bewaren, bijvoorbeeld omdat een arts de scan van een patient in 2016 wil vergelijken met een scan uit 2000. In de astronomie kijken de wetenschappers echter zelden terug. “Je moet jezelf de vraag stellen, welke informatie heb ik straks nodig. Dat is een lastige vraag, je kunt het niet risicovrij maken. Maar er is ook een compromis. Je hoeft niet alle data direct beschikbaar te hebben. Je kunt https://www.nemokennislink.nl/publicaties/hoe-ga-je-om-met-grote-hoeveelheden-data/

2/2


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.