Hexagon VolledigheidsCheck

voorbeeld van hexagon met boomobjecten.
Voorbeeld van een hexagon met boomobjecten.

De Hexagonvolldigheidscheck is een methode om steekproefsgewijs de Actualiteit, Betrouwbaarheid en Compleetheid van een dataset met geografische data te analyseren. Deze check is uit te voeren met de open-source applicatie QGIS en eigen data of open-data. Ook zijn (ten minste) drie luchtfoto-beeldopnamen van het onderzoeksgebied nodig om zeker te weten dat de volledigheid van de dataset wordt onderzocht en niet de actualiteit. Pas als het object op de drie foto’s zichtbaar is én niet in de (historie van de) registratie voorkomt, is het een ‘ontbrekend object’ dat de dataset minder volledig maakt. Het kán immers zijn dat het object onlangs, net nadat de laatste luchtfoto is gemaakt, is verwijderd en al uit de registratie is verwijderd. 

De idee is dat een projectgebied, bijvoorbeeld een woonplaats, wordt opgedeeld in hexagontegels. Hexagons zijn zeshoeken en bekend als landtegels in het bordspel Kolonisten van Catan. Voorts worden de objecten ingeladen die gecontroleerd moeten worden. Bijvoorbeeld bomen, lichtmasten, panden, bepaald type wegdelen, groendelen, parkeerplaatsen… De mogelijkheden zijn eindeloos zolang het object eenduidig is gedefinieerd

Een projectgebied bestaat dan uit bijvoorbeeld 1.000 hexagontegels. Op basis van een steekproef worden een aantal tegels geselecteerd. Bijvoorbeeld 3%. Binnen die tegel wordt met behulp van luchtfoto’s en ander beeldmateriaal gekeken of alle objecten die zijn ingeladen, terugkomen op het beeldmateriaal. Wanneer alle hexagontegels zijn beoordeeld, is een uitspraak te doen over de Betrouwbaarheid en Volledigheid van de dataset. Ook positionele nauwkeurigheid komt aan de orde.

Met Betrouwbaarheid wordt bedoeld: in welke mate is het geregistreerde object ook werkelijk dat object. Dus in een dataset met bomen, moet een data-punt geen lichtmast aanduiden.

Met Volledigheid wordt bedoeld: in welke mate is de dataset Volledig. Dus in een dataset met bomen moeten ook werkelijk alle bomen die in het veld staan een data-punt in de registratie hebben.

De Hexagonvolledigheidscheck geeft in een percentage de kwaliteit van de volledigheid van de dataset weer en heeft twee toepassingsprofielen. Enerzijds is het een goede check voor de gegevensbeheerder (producer) om te bewijzen dat de dataset voldoet aan de gestelde kwaliteitsnormen rondom de volledigheid  van de dataset. Het levert een bewijs van ‘in control’ zijn. Wanneer er geen kwaliteitsnormen zijn vastgesteld, kan de gegevensbeheerder aangeven in welke mate de dataset volledig is.

Anderzijds, wanneer de gegevensbeheerder geen gegevens verstrekt over de betrouwbaarheid en volledigheid van de dataset, dan kan de gegevensverwerker (gebruiker, user) erop vertrouwen ‘dat het wel goed zit met de kwaliteit’. De gegevensverwerker kan er ook voor kiezen om met behulp van de Hexagonvolledigheidscheck de kwaliteit zelf te meten en te beoordelen of de dataset ‘fit for use’ is voor het beoogde gebruik. Wanneer analyses of (bedrijfs-)processen in belangrijke mate afhangen van de inputdata (datagedreven werken), dan is het zeker aan te raden éérst even (steekproefsgewijs) te checken in welke mate de inputdata voldoet aan de verwachtingen. Dat kan met een Hexagonvolledigheidscheck. De meeste mensen kopen immers ook liever een APK-gekeurde auto voordat ze ermee de weg op gaan en vertrouwen op de steekproeven van de Voedsel- en Warenautoriteit. 

Is het dan niet raar om blind te vertrouwen op (open-)datasets bij (kritieke) bedrijfsprocessen? 

 

Geografische data

Een Hexagonvolledigheidscheck wordt idealiter toegepast op geografische data met een punt-geometrie. Een punt valt altijd (net) binnen of (net) buiten het afgebakende onderzoeksgebied.

Actualiteit

Wanneer een object ontbreekt, kan dat komen doordat het object afgelopen periode buiten is geplaatst en de verwerkingstermijn van registratie nog niet is verstreken. Dat maakt verklaarbaar dat de dataset nog niet is bijgewerkt. Een goede Hexagonvolledigheidscheck houdt hier rekening mee. Een veilige keuze hierin is door de verwerkingstermijn te verdubbelen en díe datum als peildatum te hanteren. Feitelijk kijkt de analyse in de achteruitkijkspiegel om te bezien wat de kwaliteit van de dataset tóen was. Wanneer er in de beheerorganisatie geen ingrijpende veranderingen zijn doorgevoerd, is er geen reden om aan te nemen dat de volledigheid van de dataset nú heel anders zou zijn.

Stel de verwerkingstermijn van een object is 6 maanden. Dus iets wat vandaag is geplaatst, moet over 6 maanden in de registratie staan.

Stel het is vandaag 1 december (1-12). Alle objecten die tussen 2 juni (2-6) en vandaag zijn geplaatst, hoeven nog niet in de registratie te staan zonder dat dit afbreuk doet aan de afgesproken datakwaliteit.

Tegelijkertijd, wat wordt nu precies gemeten wanneer geconstateerd wordt dat objecten die tussen 2 januari (2-1) en vandaag zijn geplaatst nog niet in de registratie staan? De Actualiteit van de registratie of de betrouwbaarheid en volledigheid van de registratie? 

Betrouwbaarheid

De Hexagonvolledigheidscheck is bij uitstek een instrument om de betrouwbaarheid van de registratie te meten en in een percentage uit te drukken. Allereerst moet wel heel duidelijk zijn wat het projectgebied is waarbinnen de steekproef wordt gehouden. Want dan kan de conclusie uit de steekproef geextrapolleerd worden naar het hele projectgebied. Een tweede voorwaarde voor een goede uitvoering van de Hexagonvolledigheidscheck is een goede definitie van het geregistreerde object. Immers, het moet ondubbelzinnig zijn welke objecten in het veld wél en welke vooral níet tot de dataset behoren. Het verschil tussen een boom en lichtmast is meestal wel duidelijk.

Volledigheid

 Ambigue wordt het wanneer een dataset wordt beoordeeld waarbij de objecten ‘in eigen beheer’ zijn geregistreerd terwijl de dataset doet lijken alsof het álle objecten binnen het gebied bevat. Denk aan ‘bomen’ die op particuliere terreinen (voor- en achtertuinen) staan maar ook in de (gemeentelijke) openbare ruimte; langs provinciale wegen en in beheer van het waterschap kunnen zijn. 

Wanneer alle bomen in ‘eigen beheer’ keurig zijn geregistreerd, maar de dataset doet lijken alsof het álle bomen binnen het projectgebied bevat, dan is er toch een probleem met de ‘volledigheid’ van de dataset.

Compleetheid

Wanneer er geen objecten uit de dataset worden verwijderd, dan ligt ‘overcompleetheid’ op de loer. Objecten die er in werkelijkheid niet meer zijn, maar nog wel in de registratie voorkomen maken data-analyses minder betrouwbaar dan nodig. Immers, de dataset bevat méér objecten dan er in werkelijkheid zijn. Een goede Hexagonvolledigheidscheck detecteert ook deze omissie in de dataset. 

Voorbeeld werkwijze

Het uitvoeren van een goede HexagonVolledigheidscheck is vergelijkbaar met een drietrapsraket.

Allereerst definieer je het projectgebied en het te onderzoeken object.

Vervolgens trek je een steekproef binnen het projectgebied. Hierin wordt gekeken of de objecten binnen de steekproef-hexagons allemaal zijn geregistreerd; dat er nog objecten ontbreken in de registratie of objecten staan nog in de registratie die intussen niet meer in het veld zijn waar te nemen (overcompleetheid).

Hieronder heb ik een filmpje opgenomen hoe je een Hexagonvolledigheidscheck-project in QGIS opzet.

 

Ten slotte moet er een analyse gemaakt worden over het resultaat uit de steekproef. De kaart met de ontbrekende objecten is de basis voor een gedachtewisseling met de data-beheerder. Kan er een patroon gevonden worden in de ontbrekende objecten? Kan er een verklaring gevonden worden? Vergeet niet dat verder ‘niets doen’ ook altijd nog een optie is. Als blijkt dat de volledigheid (op basis van de steekproef) prima binnen de perken van de kwaliteitsnormen valt, doe dan vooral niets om die laatste procentjes ontbrekende objecten erbij te krijgen. 

Vragen, ideeën, suggesties?

Heb je vragen, ideeën of suggesties voor een Hexagonvolledigheidscheck? Neem vrijblijvend contact op met HVC@vergismatrix.nl voor een op maat gemaakte voorbeeld werkwijze. Laat even weten wat het projectgebied is en welk (BGT) object en ik neem zo snel mogelijk contact met je op.

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Scroll naar boven