Kennisportal
Kennisportal is een kennisplatform met een focus op de brede doelgroep Business en IT.

Big data governance: houd rekening met deze vijf risicogebieden

Het gebruik van big data door organisaties ten behoeve van een slimmere bedrijfsvoering, competitief voordeel of maatschappelijke vraagstukken is tegenwoordig meer regel dan uitzondering. Om de diverse soorten data efficiënt te kunnen opslaan, verwerken en analyseren maken veel organisaties gebruik van Hadoop als hun big data platform. Vaak zonder al te lang stil te staan bij de zwakke punten van een dergelijk platform, die vooral liggen op het gebied van data governance. Het platform biedt slechts zeer beperkte ondersteuning op het gebied van metadata, datakwaliteit en beveiliging.

Er zijn vijf categorieën big data die, zeker met de nieuwe GDPR/AVG-wetgeving (lees meer over GDPR), extra aandacht verdienen:

  1. Web en social media data: dit betreft heel vaak privacygevoelige klantdata. Een data governance team zou toezicht moeten houden op hoe deze data wordt ingezet en of klanten daar wel toestemming voor hebben gegeven. Vaak worden social media-data achteloos gecombineerd met data uit het loyalty programma zonder medeweten en toestemming van klanten.
  2. IoT-data: dit bevat een breed spectrum, van sensoren die de prestaties van machines meten tot en met data van mobiele telefoons van klanten. Voor die laatste categorie data geldt hetzelfde als bij het eerste punt: hebben klanten wel toestemming gegeven om bijvoorbeeld hun geografische gegevens te gebruiken? Een aandachtspunt dat voor alle IoT data geldt is de omvang: zonder goed beleid welke data na analyse meteen weer kan worden verwijderd en welke data moet worden bewaard, lopen de kosten al snel uit de hand. Bovendien kun je vaak vraagtekens stellen bij de datakwaliteit. Vocht, kou en andere omstandigheden kunnen ervoor zorgen dat lang niet alle sensoren goed worden uitgelezen. Tot slot verdienen IoT-data extra aandacht als het gaat om security. Is bijvoorbeeld het SCADA-systeem wel goed beveiligd tegen cyberaanvallen? Lees in dit verband ook onze blog ‘Veiligheid boven alles, ook in de connected car’.
  3. Transactiedata: waar deze data vroeger vooral opgesloten zat in ERP-systemen, is het aantal bronnen nu veel groter, denk bijvoorbeeld aan apps op mobiele telefoons die automatisch locatiedata meesturen. Dit betekent dat deze data steeds vaker in een semi-gestructureerd of ongestructureerd formaat worden aangeleverd. En ook hier geldt dat deze data niet zomaar mag worden gebruikt. Klanten moeten hier wel toestemming voor geven.
  4. Biometrische data: de privacy komt nog meer in het geding bij systemen die gebruikmaken van biometrische herkenning. Vingerafdrukken, gezichtsherkenning, irisherkenning. Het zijn toepassingen die steeds vaker hun weg vinden naar het publieke domein. Dit biedt veel nieuwe kansen, maar brengt ook uitdagingen met zich mee. Hoe bewaakt u de privacy van uw klanten? En hoe blijft u binnen de kaders van de wetgeving?
  5. Data die door mensen wordt gegenereerd: hieronder vallen gespreksopnames, gespreksverslagen, e-mails, chats (voor zover daar geen chatbot achter zit) en alles wat in vrije tekstvelden staat. Juist deze data bevatten soms zeer privacygevoelige informatie. Informatie die vaak ook buiten de bewaarplicht valt die in sommige sectoren, zoals de zorg, geldt. 

Weten wat u kunt doen om in control te komen op deze data? Lees de whitepaper ‘Platform for big data governance, data management and analytics’.