Data is alles behalve goud!

"Data is het nieuwe goud!"
"Data is het nieuwe goud!" is een veelgehoorde zin in de marketing campagnes van leveranciers van producten en diensten op het gebied van data engineering, data analyse, artificial intelligence, machine learning, and andere data gerichte toepassingen. Het enige wat nodig is om al het goud te delven zijn moderne state-of-the-art tools, het liefst in "The Cloud" natuurlijk want daar kan alles en het kost bijna niets... Dit klinkt te mooi om waar te zijn, en dat is het ook. Dat data heel waardevol kan zijn staat buiten kijf. Maar de intrinsieke waarde van data is niet van zichzelf heel hoog. Olie In die zin kan data beter vergeleken worden met ruwe olie. Het kan een waardevolle grondstof zijn, als er een duidelijk doel aanwezig is waarvoor de grondstof gebruikt gaat worden en als er een lange keten van processen en middelen ontwikkeld is om dat doel te bereiken. Voordat ruwe olie waarde krijgt moet er een hele reeks aan bewerkingen plaatsvinden over meerdere ketens en door meerdere partijen. In de uiteindelijke vorm is de ruwe olie niet meer te herkennen. De waarde zit in het ontwikkelde eindproduct. Via chemische processen kan ruw olie worden omgevormd tot benzine, kerosine, plastic en nog veel meer producten. Echter, zonder auto heeft benzine weinig toegevoegde waarde, kerosine vereist een vliegtuig en de waarde van plastic komt met name tot uiting in de uiteindelijke vorm, veelal als klein onderdeel binnen een groter geheel, bijvoorbeeld als knopje op het dashboard van een auto.

Met data is het eigenlijk net zo. Data kost in eerste instantie geld en middelen. Het moet worden ontsloten, opgeslagen en beveiligd. Het moet toegankelijk gemaakt worden voor medewerkers van het bedrijf. Als dat allemaal goed gebeurd is, heeft het nog dezelfde status als ruwe olie in een vat: een waardevolle grondstof, maar nog lang geen eindproduct. In het artikel Hoe data informatie wordt wordt beschreven welke uitdagingen men tegenkomt bij het omzetten van data naar informatie tijdens klassieke Business Intelligence projecten. In deze tijden van Big Data kan men gelijksoortige uitdagingen verwachten, maar dan "Bigger".

(Data) product ontwikkeling
Om waarde te creëren uit data, zullen z.g. dataproducten ontwikkeld moeten worden. Binnen de marketing theorie, vindt productontwikkeling doorgaans plaats via een aantal fases. Dit begint meestal met een z.g. exploratiefase. In deze exploratiefase worden ideeën voor nieuwe producten verzameld. Deze ideeën kunnen voortkomen uit de eigen organisatie, door te kijken naar concurrenten, te luisteren naar tussenpersonen. Ook brainstormsessies kunnen nieuwe ideeën genereren. In de concept ontwikkelingsfase worden ideeën vertaald naar de gebruiker van het data product. Er wordt concreet gemaakt wanneer gebruik gemaakt wordt van het product en op welke manier. In de strategieontwikkelingsfase zal kritischer gekeken worden naar de (financiële) haalbaarheid van de ontwikkelde concepten.

Als de voorgaande fases zijn doorlopen zal pas overgegaan worden tot fysieke productontwikkeling, waarin bijvoorbeeld prototypen ontwikkeld worden. Als dat allemaal goed gaat, zullen nog diverse testfases doorlopen moeten worden voordat overgegaan zal worden tot de uiteindelijke lancering van een product.

Binnen de klassieke Data Warehouse en Business Intelligence omgevingen, zou men Rapporten, OLAP kubussen en Dashboards als dataproducten kunnen beschouwen. In moderne data architecturen zijn ook andere typen data producten te vinden, zoals bijvoorbeeld: apps, web API's en aanbevelingssystemen.

De waarde van een business intelligence omgeving
Niel elke business intelligence omgeving bevat louter volledig uitontwikkelde data producten. Het komt voor dat in de omgeving allerlei versies van rapporten door elkaar te vinden zijn: productierappoten, testversies, uitprobeersels, adhoc lijstjes, rapporten die nauwelijks nog gebruikt worden, en rapporten met verouderde of onjuiste datadefinities. In een dergelijke omgeving is het voor een business gebruiker lastig te bepalen welk dataproduct gebruikt kan worden voor een bepaalde toepassing. In zo'n geval zal deze gebruiker zijn pogingen om zijn probleem op te lossen staken, of op zoek gaan naar een alternatieve oplossing. Die zou kunnen bestaan uit het zelf proberen samen te stellen van de gevraagde data, bijvoorbeeld aan de hand van eigen data exports en laagdrempelige tools zoals spreadsheet programma's. Dit alles kost veel tijd en mogelijk resulteert een dergelijke poging in een nieuw onaf product. Als een business intelligence omgeving lijkt op dit zojuist geschetste beeld, dan ontbreekt het waarschijnlijk aan een gestructureerde aanpak. Rapportage- en analysetoepassigen worden on the fly ontwikkeld, door gewoon te beginnen naar aanleiding van een bepaalde informatiebehoefte. Doordat het uiteindelijke einddoel en de te behalen voordelen vooraf onvoldoende duidelijk zijn, strandt het project voortijdig door onvoldoende urgentie en funding.

Het professionaliseren van de BI omgeving
Het hiervoor beschreven doemscenario zou kunnen worden voorkomen, door de onwikkeling van dataproducten af te kijken van de klassieke productontwikkeling. Niemand zou het in zijn hoofd halen om een nieuw model auto te ontwikkelen door gewoon te beginnen met bouwen. En als dat gelukt is, deze na een korte proefrit in productie te nemen. Waarom is dat dan wel de normale gang van zaken bij een KPI dashboard of een Data Mart? Het maken van een prototype is bij business intelligence projecten vaak zowel de eerste als de laatste stap. Als het prototype klaar is, wordt het gelijk in productie genomen en gaat iedereen ervan uit dat het wel goed komt. De fysieke data product onwikkeling zou eigenlijk pas moeten beginnen als er een duidelijk beeld is van het beoogde gebruik van het product. En voordat het in productie genomen wordt, zouden er nog allerlei kwaliteit checks gedaan moeten worden. Ook allerlei bijkomende eisen in het kader van de GDPR zijn belangrijk in deze tijd. Het gaat te ver om alle relevante zaken in dit artikel te behandelen. Een goede data strategie zou een goede basis kunnen vormen, waarin in ieder geval op hoog niveau de lange termijn doelen en eisen zijn vastgelegd.