
4 minute read
Datakvalitet og standardisering
from GEOFORUM 223 - April
by Geoforum
Digitale løsninger, som gør det lettere at være borger i Danmark, som kan være grundlag for forretningsudvikling ude i virksomhederne, og som kan effektivisere og højne kvaliteten af forvaltningsafgørelse hos en myndighed, forudsætter flere ting: Kompetente medarbejdere, stabil og hurtig internetforbindelse og… et godt datagrundlag!
AF JAN HJELMAGER OG LARS STORGAARD, STYRELSEN FOR DATAFORSYNING OG EFFEKTIVISERING (SDFE)
Stort set alle digitale løsninger bruger data, som er sammenstillede eller kombinerede. At kombinere data succesfuldt er ikke en selvfølgelighed. Flere ting skal gå op i en højere enhed, og kvaliteten af data skal være høj nok til, at data kan kombineres med andre, for at resultatet heraf er anvendeligt for de digitale løsninger.
SDFE har vedtaget en ny strategi for de kommende år. Her er et af målene, at de registre, som SDFE har ansvar for, har en kvalitet, der passer til anvendelsen. Det er tanken at udmønte dette mål således, at registrenes dataindhold bliver klassificeret efter tre niveauer. Disse niveauer balanceres i forhold til aktualitet, historik og detaljeringsgrad således, at brugerne af data får, hvad der passer bedst til deres brug, og datasæt bliver klar til fremtidens teknologier.
Hvad er datakvalitet?
Ser man, hvordan standardiseringsgruppen ISO/ TC211 har defineret begrebet datakvalitet, får man én vinkel: ”Totality of characteristics of a product that bear on its ability to satisfy stated and implied needs”. Man kan også vende det rundt og sige, at datakvalitet er en beskrivelse af hvor godt, nogle data lever op til den specifikation, de er produceret efter. Nogle vil sige, at datakvalitet er metadata, og ja, det er datakvalitet også. Her skal man være opmærksom på, at mens metadata beskriver hvad, man kan forvente at få, så beskriver datakvalitet hvad, man rent faktisk får, for så vidt angår data.
Når et givent produkt, det kan være geodata eller andre data, er af god eller dårlig kvalitet, så siger det sådan set bare, om produktet lever op til de forventninger, man som bruger har. Set i det lys kan man til en vis udstrækning godt sige, at opfattelsen af kvalitet har et subjektivt element.
Nationalt samarbejde om datakvalitet
Tilbage i efteråret 2019 blev en vejledning til deklarering af kvaliteten af datasæt med titlen: ”Fælles sprog for datakvalitet” godkendt af Styregruppen for Data og Arkitektur under den
Fælles Offentlige Digitaliseringsstrategi. SDFE deltog i udarbejdelsen af vejledningen og testede den med GeoDanmark Bygning som testcase. >>
Figur 1. Begrebsdiagram over dimensioner til beskrivelse af datakvalitet dannet ud fra W3C DQ og ISO 25012 1
1 DIGST/FDA: Fælles sprog for datakvalitet – Vejledning til deklaration af datasæt med kernedimensioner 1.0.0
Figur 2. 499 stikprøveområder, hvor data fra udvalgte objekttyper er kontrolleret imod ortofotos 2 .
Et fælles sprog for datakvalitet giver i sig selv ikke en bedre kvalitet, men det kan være med til at lette dialogen mellem den dataansvarlige organisation og eksterne anvendere af datasættet, og bidrage til en vurdering af, om et datasæt er egnet til en given (ny) anvendelse.
Metoden er udviklet til brug i dansk fællesoffentlig sammenhæng på baggrund af internationale standarder, nemlig W3C’s: ”Data on the Web Best Practices: Data Quality Vocabulary” og ISO 25012 – Data Quality Model.
Med baggrund i standarderne er fire kvalitetsdimensioner med tilhørende underdimensioner udvalgt som værende de allermest vigtige i forhold til at udtrykke et datasæts kvalitet: arrangeret i fællesskab af ISO/TC211, OGC, Eurogeographics Quality KEN, EuroSDR og ICA under overskriften: ”Data quality”. Ved denne workshop blev ovenstående model præsenteret og diskuteret med repræsentanter fra primært europæiske kortlægningsinstitutioner og digitaliseringsstyrelser. Modellen og metoden blev godt modtaget og gav anledning til diskussion. Specielt var der diskussion om, hvordan man kommunikerede datakvalitetsmålinger. For os blev det på workshoppen klart, at netop kommunikation af kvalitetsmålinger er relativt uopdyrket land.
Måling og præsentation af datakvalitet
Hvad er god datakvalitet, og hvornår er kvaliteten god nok? Det afhænger dybest set af den enkelte use case, for ved nogle anvendelser er én datakvalitet fuldt ud tilstrækkelig, mens den for andre ikke er god nok.
Grunddata skal være af bedste kvalitet. Her hører GeoDanmark-data til. SDFE måler, om GeoDanmark-data overholder GeoDanmark-specifikationens krav til fuldstændighed og tematisk nøjagtighed. Kontrollen foretages af SDFE som en visuel stikprøvekontrol i overensstemmelse med ISO 19157 op imod ortofotos i udvalgte områder, se figur 2.
I forhold til fuldstændighed og tematisk korrekthed bliver kontrollen udført på hhv. 5 og 6 udvalgte objekttyper. Resultatet af kvalitetsmålingen viser, at de udvalgte GeoDanmark-data overordnet set har en høj kvalitet. De lever som helhed op til kvalitetsmålene i specifikationen.
Hvordan får vi kommunikeret resultatet af målingen for brugerne? Her kan føromtalte fælles sprog for datakvalitet være et bud. Stjerner kan angive værdien af de forskellige kernedimensioner. Umiddelbart er stjerner noget, vi alle kender fra produktvurderinger (fx hårde hvidevarer). Stjernemarkeringer som kommunikationsmetode var et af de omtalte diskussionspunkter på Malta.

- Komplethed – i hvor høj grad datasættet indeholder de dataelementer, der er forventede i forhold til datasættets specifikation. - Korrekthed – i hvor høj grad, dataværdier er i overensstemmelse med faktiske værdier. - Aktualitet – i hvor høj grad, data er tidsmæssigt aktuelle i forhold til den virkelighed, de repræsenterer. - Genbrugelighed – i hvor høj grad, data er forståelige og uden vanskeligheder kan anvendes af andre.
Hvordan underdimensioner forholder sig til kernedimensionen er illustreret i figur 1.
Internationalt samarbejde om datakvalitet
I januar 2020 deltog vi i en workshop på Malta Set i et nationalt lys udestår der en opgave med at finde den mest hensigtsmæssige metode til at præsentere datakvalitet, så det er intuitivt let at forstå og samtidig ikke use case afhængigt, men giver de nødvendige informationer. Denne metode bør i videst muligt omfang anvende internationalt anerkendte metodiker, hvis de findes, eller når de bliver opfundet (jf. arbejdet i Eurogeographics Quality KEN).
2 Geodanmark: https://www.geodanmark.dk/documents/8580-2