Product: Vergismatrix
In leerboeken over Geografische Informatie Systemen wordt in het hoofdstuk “data quality” en de paragraaf “uncertainty” dikwijls de “confusion matrix” of “error matrix” aangehaald om de attribute accuracy te duiden. Ik heb dat naar het Nederlands vertaald als “de Vergismatrix” en toegepast op de Basisregistratie Grootschalige Topografie (BGT) in het algemeen en het attribuut: Plus_Fysiekvoorkomen uit de IMGEO-gegevenscatalogus in het bijzonder. In principe is de Vergismatrix toepasbaar op allerlei GIS-datasets zolang de gegevens in de registratie zijn te vergelijken met de fysieke werkelijkheid buiten of op basis van beeldmateriaal.
In het document “Gegevenskwaliteit in de Omgevingswet” worden categorieën en thema’s onderscheiden waarop gegevenskwaliteit gemeten kan worden. De Vergismatrix is als meetinstrument te scharen onder het kopje “Thematische nauwkeurigheid” en “Classificatie juistheid”. Positionele nauwkeurigheid en Temporele nauwkeurigheid komt als bijproduct aan de orde in de rapportage. Met behulp van een Vergismatrixanalyse wordt de Kwaliteit van de Gegevens op de onderdelen Thematische en Classificatie-juistheid gemeten.
- Thematische nauwkeurigheid: Allereerst wordt het BGT-Thema bepaald waarop de Vergismatrixanalyse wordt losgelaten. Wegdelen, Begroeid terreindelen, onbegroeid terreindeel, et cetera. Indien gekozen is voor het thema Wegdelen en het BGT-object blijkt niet langer in dit thema thuis te horen (voetpad is gras- en kruidachtigen geworden), dan is dit een Thematische onnauwkeurigheid in de registratie (een Vergissing).
- Classificatie juistheid: indien gekozen is om binnen het thema Wegdelen het fysiek_voorkomen te controleren, dan komt het een enkele keer voor dat een object dat als Asfalt staat geclassificeerd, in werkelijkheid Tegelverharding blijkt te zijn. Dit is dan een classificatie-onjuistheid (een Vergissing).
- Temporele nauwkeurigheid: het valt te verdedigen dat, wanneer bovenstaand BGT-object, dat – op basis van het beeldmateriaal – vorig jaar nog Asfaltverharding was, en na 6 maanden niet is gewijzigd naar Tegels, geen classificatie-onjuistheid is: maar een temporele onnauwkeurigheid (actualiteitseis is niet gehaald). Hierover moeten afspraken worden gemaakt in de analyse.
- Positionele Nauwkeurigheid: het kan voorkomen dat in de analyse het steekproefpunt aan de rand van het BGT-object “asfalt” is geprikt. Wanneer het BGT-object ‘slordig’ is ingetekend (meer dan 30cm afwijking) dan kan het voorkomen dat het wegdeel: asfalt deels over het fysiek naastgelegen voetpad of ondersteunendWegdeel ligt. Is deze ‘overshoot’ meer dan 30 centimeter, dan kan er sprake zijn van een positionele onnauwkeurigheid.
De idee van een Vergismatrix is dat op basis van een steekproef onderzocht wordt of de geregistreerde voorkomens van een objectenregistratie (in dit geval BGT-IMGeo) correct zijn geclassificeerd. Is het voorkomen “asfalt” in de objectenregistratie wegdelen (de kaart); ook in werkelijkheid “asfalt”? Of zijn het eigenlijk tegels (C_2)? Een vergissing tussen asfalt en tegels leidt er in beheersystemen toe dat er volgens de computer méér asfalt in het beheergebied is dan in werkelijkheid het geval is en volgens de computer mínder tegelverharding dan de werkelijkheid. Wanneer de organisatie ‘datagedreven’ wil werken en de planning & controlcyclus zo in ingericht dat er voor het onderhoud van een vierkante meter asfalt een X bedrag wordt begroot en voor een vierkante meter tegelverharding een bedrag Y; dan zit dáár, bij de registratie van de verharding, de oorzaak waarom de begroting (altijd) afwijkt van de werkelijke realisatie.
Uit bovenstaand voorbeeld blijkt, uit een steekproef met 59 asfaltobjecten (zie regel asfalt, kolom Total) in een woonplaats, dat de vergissing tussen Asfalt en Tegels één keer is gemaakt. Bij drie objecten die als Asfalt geregistreerd staan, was het object in het geheel geen wegdeel maar een Andere Klasse.
Door deze controle steekproefsgewijs uit te voeren en te registreren, wordt meetbaar en inzichtelijk gemaakt waar – tussen welke classificaties – het vaakst vegissingen voorkomen. Zo kan daar gericht op geacteerd worden door de beheerorganisatie.
Zo zijn er van de, in de steekproef, 10 objecten met klasse None (C_0); in werkelijkheid 4 objecten met het fysieke voorkomen: Schelpen (C_10). Mocht er (in de toekomst) iets aan de hand blijken te zijn met een schelpen-verharding, dan is dat nu bij de gemeente onbekend. Daarmee blijft een adequate actie op een mogelijk maatschappelijk probleem, uit.
Mocht er een causaal verband zijn tussen locaties met schelpenverhardingen en fietsers met een lekke band, dan kan dat causale verband nu niet ontdekt worden aan de hand van een GIS-analyse tussen locaties met lekke banden én het fysieke voorkomen van de wegverharding. Is dit gegeven wél goed geregistreerd, dan is de GIS-analyse wél heel eenvoudig uit te voeren en het causale verband te achterhalen. Dát geeft een waardevol inzicht in een maatschappelijk probleem. Doordat de BGT-IMGEO gegevens online als open-data worden gepubliceerd in de Landelijke Voorziening BGT hoeft de BGT-bronhouder deze analyse niet zelf uit te voeren. Door het fysiek_voorkomen goed te registreren en te publiceren in de Landelijke Voorziening kán een organisatie als de Fietsersbond of ANWB die conclusie zelf trekken doordat zij mogelijk wel beschikken over de locaties waar hun leden een lekke band oplopen en de BGT-bronhouder niet.
Vijf objecten met de classificatie zand, blijkt in werkelijkheid totaal iets anders te zijn dan een wegdeel. Dit komt terug in de codering: C_999. Dat is een aanwijzing dat de actualiteit van de BGT niet voldoet. Omdat in de steekproef alleen objecten zijn genomen die meer dan 6 maanden geleden zijn geregistreerd in de LV-BGT én van vóór de Luchtfoto-opname is de zekerheid ingebakken dat alleen objecten in de steekproef worden opgenomen die ook op de luchtfoto zichtbaar zouden moeten zijn. Wijkt het object af van de luchtfoto, dan is de classificatie onjuist óf de BGT niet actueel (omdat de BGT niet is bijgewerkt naar de Luchtfoto toe). In beide gevallen een signaal naar de bronhoudersorganisatie om een kwaliteitsimpuls te geven aan het BGT-bronhoudersschap.
Wanneer uit de steekproef blijkt dat er een causaal verband is tussen één type geregistreerd voorkomen met een ánder werkelijk voorkomen; dan kunnen de BGT-registratoren gericht op deze veel voorkomende vergissing gewezen worden om in het vervolg extra op te letten als er een object wordt geclassificeerd met dit fysieke voorkomen. Tegelijkertijd moeten álle objecten met dat voorkomen nog eens één voor één nagekeken worden om te controleren of deze wel correct zijn geclassificeerd. Denk in bovenstaand voorbeeld aan het fysieke voorkomen zand dat in alle gevallen onjuist blijkt te zijn.
Zand (C_13)
In bovenstaand voorbeeld zijn tien objecten getrokken met de classificatie zand (C_13) in de steekproef. In werkelijkheid bleek het één keer een asfalt (c_1) en één keer een grasklinkers (c_12) klasse te betreffen. Drie keer puin (c_14) en vijf keer in het geheel geen wegdeel (c_999). Tegelijkertijd blijkt dat van álle ándere 240 steekproefpunten, in geen enkel geval een zand-classificatie voor te komen. Terwijl er in die 240 andere punten wel genoeg andere vergissingen zijn voorgekomen. Dat betekent dat het plus_fysiekvoorkomen zand een ‘verdachte’ classificatie is. De BGT-registrator moet zich voortaan twee keer bedenken voordat er een object het fysieke voorkomen zand krijgt toegewezen én het is raadzaam om alle andere objecten met de classificatie zand nog eens te controleren op juistheid.
