Welke data hebben we al?
Met welke bestaande data kunnen we aan de slag? En hoe verhoudt zich dit tot de meetsystemen?
Samen met een datascientist heeft de stad de gegevens onder de loep genomen. We kijken zowel naar de output van de proeftuin voor meetsystemen, als naar de data die we al hebben.
Veel databronnen
We beschikken over deze data, waaruit we waardevolle inzichten proberen af te leiden, zoals:
- huidige en oudere druktemetingen
- mobiliteit: straatparkeren
- mobiliteit: parkeergarages
- mobiliteitsgegevens circulatiegegevens via verkeerslussen en ANPR
- andere mobiliteitsdata, zoals: data van autodelen, deelfietsen, fietstelpalen, park ‘n’ rides, Waze, …
- toerisme: cijfers bezetting en reservatie van hotels
- bezoekersaantallen van cultuur en toerisme
- bezoekersaantallen van evenementen
De inzetbaarheid van deze data is echter heel verschillend:
- (quasi) continu beschikbare data vs in tijd beperkte datasets
- data beschikbaar via API of niet
- real time data of post factum data
De analyse van de data door VLOED toont aan dat gegevens pas echt bruikbaar zijn voor het volgen van drukte als het gaat om lange tijdreeksen, beschikbaar via API, met realtime gegevens. Omdat veel gegevens verband houden met drukte, is dit een belangrijk aandachtspunt voor veel systemen.
Proxygegevens voor drukte
Bij de Gentse datasets identificeerden we datasets die potentieel een sterke proxy zijn voor drukte in de stad. Dit is bevestigd bij de verdere verwerking voor de voorspellende modellen. Het wordt dus bijzonder belangrijk om in te zetten op de beschikbaarheid en kwaliteit van dit soort data. Deze proxy-data worden vooral bruikbaar als ze gecombineerd worden met data die een indicatie heeft van de spreiding van de drukte over en binnen de sfeergebieden in de stad.
Het gaat daarbij concreet om:
- bezetting van de parkeergarages
- circulatie op basis van ANPR camera’s
Hiaten in de data
Elk systeem heeft te maken met hindernissen en problemen die leiden tot hiaten in de data. Dit valt vooral op wanneer we de mogelijkheden voor voorspellende modellen verkennen. Een apparaat kan bijvoorbeeld uitvallen, zowel de systemen voor het meten als de tools voor het verwerken/opslaan van de data kunnen uitvallen. Een een parking kan tijdelijk niet toegankelijk zijn, of de capaciteit kan tijdelijk verminderd worden. In al deze situaties moeten de data en de voorspellende modellen ermee omgaan. Data moeten dus continu kritisch beheerd en gecontroleerd worden.
De belangrijkste uitdaging voor data-analyse en voorspellende modellen is hoe we omgaan met ontbrekende data. We besteden daarom binnen VLOED ook aandacht aan data-monitoring en data-imputatie.
De noodzaak van een integraal datamanagement
Multidisciplinaire data, lange realtime tijdsreeksen, kwaliteit en data-imputatie, proxydata. Er is veel mogelijk op het gebied van data-analyse wanneer dit actief wordt nagestreefd en beheerd. Als we verder willen gaan op basis van VLOED, hebben we een goed uitgewerkt datamanagementplan nodig. Door dit toe te passen, verandert ook de behoefte aan specifieke meetsystemen voor drukte en kunnen we verder werken met de data die we sowieso nodig hebben.