Datakvalitet i en mangeleddet infrastruktur

Session

Geodata i lovgivningen

Abstract

Grunddataprogrammet har etableret en ny tværgående infrastruktur. Den nye ejendomsvurdering har ambitiøs og avanceret dataanvendelse. Retlige kort er på vej. I disse tiltag og andre er datakvalitet en meget kritisk faktor. Men hvad er god datakvalitet?

Data kan opfattes som et transportmiddel for information mellem de, der danner data, og de, der bruger data. Flere og flere arbejder med data, men færre og færre har indsigt i de domæner, hvor data skabes. Et syn på god datakvalitet er, at hvis data kan flyde frit uden ophold gennem infrastrukturens mange led, så er der god datakvalitet. Men er det god datakvalitet eller er det god transportkvalitet, hvor datas primære formål med at bringe information fra dannelse til brug kan gå tabt i infrastrukturel fokusering?

I indlægget vil der blive præsenteret forskellige vinkler på datakvalitetsudfordringer i en mangeleddet infrastruktur.

Målgruppe

Målgruppen er deltagere, der er interesserede i datakvalitet i et bredere perspektiv og ikke forventer at få en kogebog med hjem. Vil du gerne høre om hvad, der kan blive af udfordringer med arbejdet med datakvalitet, når data kommer mere i anvendelse via store infrastrukturer, hvor domæneindsigt kommer i baggrunden, så kom og vær med.

Yderligere uddybning af abstract

Grunddataprogrammet har etableret tværgående infrastruktur på tværs af datasamlinger hos forskellige myndigheder. Det er godt og der er mange muligheder i den nye infrastruktur. Samtidig består infrastrukturen dog af mange led og er ret kompleks med et delt ansvar hos mange myndigheder, hvor det fælles sprog er tjenester, formater og teknik, men ikke domæne- eller dataindsigt.

Datakvalitet er vigtigt for servicesamspillet i grunddataprogrammets infrastruktur. Der bliver brugt en del ressourcer på det. Fokus ligger imidlertid alene på teknikken og det at få data til at flyde som specificeret i de mange tjenester. Men er det et spørgsmål om god datakvalitet eller er det et spørgsmål om god transportkvalitet? Kan diskussionen om god datakvalitet reelt først begynde, når slutbrugeren bruger informationsindholdet i data og begynder at stille spørgsmål til de modtagne data?

I tingbogen er "bygning på lejet grund" et resultat af en retlig sikringsakt. I kommunal forvaltning er bygning på fremmed grund (BPFG) et administrativt debitorobjekt. Da de 2 begreber i langt de fleste tilfælde repræsenterer det samme fysiske objekt, er der i ejendomsdataprogrammet lavet et fælles dataobjekt BPFG. I drifts- og registreringsmæssig sammenhæng er det en udfordring at få kommunal praksis og Tinglysningsrettens håndhævelse af sikringsakt til at spille skarpt sammen i dannelse af nye og ændring af eksisterende BPFG’ere. Hvordan opnås god datakvalitet for BPFG?

Det kan være en udfordring at få god historikdata på ensartet vis over en årrække i et register. Det er en endnu større udfordring at få gjort historik tilgængelig på ensartet vis fra flere registre og datasamlinger. Det har også været en udfordring for grunddataprogrammet.

Det nye ejendomsvurderingssystem indhenter data fra mange forskellige kilder. Indhentningen sker igennem flere led. I forberedelsen af data bliver fokus på den tekniske datatransport og ikke på informationsværdien i data, da anvender naturligt nok ikke kan opnå indsigt i alle de domæner, hvor data kommer fra.

Matrikelkortet anvendes af vurderingssystemet. I forberedelse af matrikelkortets data blev der flere gange påpeget store problemer med overlappende jordstykker. Da det var værst, var der 36 overlap med et samlet overlapningsareal på størrelse med et A5-ark for 72 ud af 2½ millioner matrikulære jordstykker. Et jordstykkes areal angives i hele kvm, så set fra Matriklen var det en fuldstændigt forrykt problemstilling. De mikroskopiske overlap blev dannet af decimalforskelle ved dataoverførsler mellem de seks led i infrastrukturen.

Det er sikkert ikke det eneste tilfælde, hvor infrastruktur med mange led og manglende kendskab til datadomænet har skabt datakvalitetsstøj på et tyndt grundlag. Metadata og veldokumenterede datamodeller kan hjælpe, men det er sandsynligvis i mange tilfælde ikke nok. Hvad skal der til for at opnå bedre informationsdialog om data mellem de, der danner data, og de, der bruger data, når der er mange infrastrukturelle mellemled?

Datakvalitet i en mangeleddet infrastruktur
Jørgen Skrubbeltrang
GST