Hoe data informatie wordt

Data vs informatie

Business Intelligence draait om het omzetten van data in informatie. Er is een breed scala aan software tools beschikbaar, die hierbij kunnen helpen, de z.g. Business Intelligence tools. Voorbeelden hiervan zijn: rapportagetools, querytools, dashboarding tools, visualisatie software, scorecarding software, data integratie tools, ETL tools, diverse soorten analytische database systemen, etc.

In het kort gezegd helpen deze tools bij de volgende taken:
- Het presenteren van data op allerlei wijzen (denk aan: rapporten, grafieken, dashboards, scorecards, etc.)
- Het manipuleren van data, zoals het uitvoeren van berekeningen , het aggregeren van data, het combineren van data, het opslaan van data in een bepaald formaat, het opschonen van data, etc. (denk hierbij aan ETL tools, data integratie software, analysedatabases, DQM tools)

Uit het bovenstaande zou men kunnen concluderen dat Business Intelligence draait het manipuleren van data en het presenteren hiervan. Dit is een misvatting, en dat is belangrijk om te beseffen, anders kunnen business intelligence trajecten tot teleurstellende resultaten leiden. Business Intelligence draait om veel meer dan dat.

"Data" en "informatie" zijn twee zeer verschillende begrippen, ondanks het feit dat zij in de praktijk veelal gebruikt worden om gelijksoortige zaken te beschrijven. Zo kan je zeggen dat een rapport bepaalde informatie bevat, of dat een rapport bepaalde data toont. Niet iedereen zal direct een wezenlijk verschil in betekenis tussen beide zinnen opmerken.

Er zijn allerlei theorieën over de verschillen tussen data en informatie. In het kort komen deze vaak neer op het volgende:

Data = gegevens = symbolen, tekens, getallen, woorden, etc.
Informatie = data die in een bepaalde context gezet kan worden.

Er is dus sprake van data of gegevens als er iets waargenomen kan worden, los van het feit of er betekenis gegeven kan worden aan deze gegevens. Er is pas sprake van informatie als deze gegevens geïnterpreteerd kunnen worden. Met andere woorden: dat er een bepaalde betekenis gegeven kan worden aan de gegevens.

De moderne mens wordt op dit moment dagelijks overspoeld met data. Deze data bestaat uit woorden en zinnen in de social media berichten, emails, web-pagina's, sms-jes die we ontvangen, cijfers die we zien in nieuwsberichten, rapportages op het werk. Maar ook de symbolen die we waarnemen (denk aan allerlei verkeersborden, matrixborden, reclameborden, e.d. die we langs de weg zien op weg naar werk). De meeste mensen zullen misschien het gevoel hebben dat zij al deze data, of misschien noemen zij het wel informatie, prima in de juiste context kunnen plaatsen. Echter, is dit ook echt zo? Hoeveel van alle getallen, berichten, rapporten, nieuwsberichten die we zien, dringt echt tot ons door? En wellicht nog belangrijker: in hoeverre zijn deze tot nut? Naast het feit of de data die we ontvangen betekenis kunnen geven, is de kernvraag wat we met deze informatie doen. Informatie of data die we waarnemen, maar welke geen enkel invloed hebben op de dingen die we beslissen of die we doen, is uiteindelijk nutteloos en kost in dat geval alleen onnodige energie.

Uiteindelijk draait business intelligence om het resultaat wat bereikt kan worden door informatie uit data te herleiden en vervolgens beslissingen te nemen welke tot een ander resultaat zullen leiden.

Het doel van business intelligence

Het bovenstaande onderscheid tussen data en informatie is een belangrijk aspect binnen het vakgebied business intelligence. Het simpelweg aanbieden van data in allerlei rapporten, data exports, scorecards, dashboards en andere presentatievormen, verandert deze data niet automatisch in informatie. Nog minder vanzelf is deze data of informatie nuttig. Dat laatste is volledig afhankelijk van de mate waarin de gegevens aansluiten op het doel wat bereikt dient te worden met de informatie. De uitdaging van business intelligence, is dat data niet alleen informatieve waarde moet hebben voor één persoon, maar dat deze informatieve waarde veelal moet gelden voor meerdere afdelingen en/of leidinggevende van deze afdelingen binnen het bedrijf. Pas als meerdere personen een gemeenschappelijk begrip hebben van de data en deze data als betrouwbare informatie beschouwen, zullen er beslissingen genomen kunnen worden op basis van deze data, of kunnen er belangrijke discussies gevoerd worden over informatieonderwerp. De werkelijke betrouwbaarheid van de data is vervolgens in hoge mate bepalend voor het resultaat wat uit de beslissing voortvloeit.

Binnen sommige bedrijven zijn vele rapporten beschikbaar, soms wel honderden of zelfs meer. Vaak zijn er verschillende rapporten over hetzelfde onderwerp die binnen verschillende afdelingen vervaardigd zijn. Vaak gebeurt dit op een handmatige, dus foutgevoelige manier. Indien deze rapporten verschillende cijfers bevatten, kan dit gemakkelijk tot allerlei verwarring leiden. Er ontstaan op die wijze allerlei discussies over de juistheid van de data, in plaats van over het werkelijke onderwerp.

Het interpreteren van data

Een persoon met een bepaalde informatiebehoefte zal op zoek gaan naar de benodigde informatie. Zodra deze beschikbaar komt, in de vorm van rapporten, artikelen, grafieken, e.d. zal deze persoon bewust of onbewust een aantal vragen stellen op basis waarvan hij bepaalt of de beschikbare data de gevraagde informatie bevat. Deze vragen hebben te maken met:

1. de betekenis van de data

Gegevens die betekenis hebben, kunnen in gedachte gerelateerd worden aan begrippen en objecten uit de werkelijkheid. Binnen bedrijven gaat het in dat geval om business processen, klanten, producten, leveranciers. Soms worden binnen bedrijven verschillende definities gebruikt voor hetzelfde: klanten komen in verschillende systemen onder verschillende nummers voor, producten hebben verschillende naamgevingen, coderingen en niveaus van opslaan. Business processen kennen verschillende deelprocessen, processen kunnen wellicht net iets anders gaan in verschillende situaties (wat resulteert in andere data die wordt geregistreerd, of het ontbreken van data als het een handmatig proces betreft wat niet wordt geregistreerd).

Om data te kunnen interpreteren, is het noodzakelijk om een exact beeld te hebben wat de data precies representeert (en wat niet).

2. de betrouwbaarheid van de data

Een belangrijke vraag die men zich stelt bij het beoordelen van een informatie bron is: kan ik deze data vertrouwen? Aspecten die de mate van vertrouwen bepalen zijn:
- De herkomst van de data. Komt de data direct uit een betrouwbare bron, of heeft iemand deze bewerkt en geïnterpreteerd?
- Als data gerepliceerd wordt via bepaalde processen, is het belangrijk om te weten wat de status is van die replicatie. Zijn er fouten opgetreden de afgelopen tijd waardoor er mogelijk data ontbreekt?
- Indien iemand de data heeft bewerkt, kan ik deze data dan nog vertrouwen? Heeft de betreffende persoon voldoende kennis van zaken? Heeft hij bepaalde keuzes gemaakt in de interpretatie van deze data? Zo ja welke?
- Een manier om de kwaliteit van data te beoordelen is om deze te vergelijken met een andere databron. Indien er afwijkende getallen uitkomen, is dit een aanwijzing dat één van beide bronnen foutief is.

3. de relevantie van de data

Vaak is een informatiebehoefte zeer specifiek en concreet. Een klein stukje data kan het antwoord opleveren. De beschikbare data kan bestaan uit een grote hoeveelheid grotendeels irrelevante data waarbinnen het antwoord gezocht moet worden. Dit fenomeen treedt op als iemand op internet zoekt naar een bepaalde term en 100.000.000 hits krijgt. Maar ook in een bedrijf waar een manager dagelijks 20 rapporten in de mail ontvangt van elk 80 pagina's. Het kost in dat geval om het juiste antwoord te herleiden uit de stortvloed van data.

Door de bovenstaande stappen te doorlopen, wordt als het ware de context gecreëerd die de data verandert in informatie.

Het onderzoeken van de betekenis en betrouwbaarheid van data kan gemakkelijk heel veel tijd kosten. Soms dagen, weken, of zelfs langer. Soms houden diverse mensen of zelfs afdelingen zich bezig met het ontsluiten van diverse bronnen, het checken en vergelijken van data, het corrigeren van data. Vaak moeten beslissingen op korte termijn genomen worden. Tegen de tijd dat de benodigde informatie boven tafel is, is het besluit al genomen, of is het te laat om nog actie te ondernemen. De snelheid waarmee data als informatie gebruikt kan worden, zal steeds belangrijker worden in de concurrentiestrijd tussen bedrijven. In de maatschappij komt meer en meer data beschikbaar. Bovendien vinden steeds meer interacties geautomatiseerd plaats. De enige wijze waarop inzicht verkregen kan worden in het verloop hiervan, is het interpreteren van de gelogde gegevens.

Sneller interpreteren is sneller beslissen

Zoals uit het bovenstaande afgeleid kan worden, gaat het bij business intelligence niet zozeer om de data zelf, maar de interpretatie van deze data. Voor deze interpretatie is kennis over de data noodzakelijk. Het borgen van deze kennis, moet dus een zeer hoge prioriteit hebben bij business intelligence initiatieven. Helaas is dit niet altijd het geval. De nadruk ligt vaak op de oplevering van de zichtbare producten. Er moeten rapporten worden opgeleverd, olap kubussen, dashboards, data marts. Hoe mooier de rapporten eruit zien, hoe enthousiaster het publiek. Maar hoe belangrijk presentatie ook is bij het overbrengen van informatie, uiteindelijk gaat het in de eerste plaats om de kwaliteit van de informatie die de uiteindelijke winst gaat bepalen. De vraag is dus hoe we deze kwaliteit kunnen verhogen.

Data definities

Zoals gezegd representeren de data elementen die gebruikt kunnen worden in rapportages en analyses zaken uit de werkelijkheid. Wat de data precies representeert zal geborgd moeten worden middels documentatie. Deze documentatie zal toegankelijk moeten zijn voor de doelgroep die de data als informatie gebruikt. Een uitgebreid technisch document heeft weinig toegevoegde waarde voor een manager die een vraag heeft over een rapport. Niet alle kennis over data is altijd present binnen bedrijven. Veel kennis is aanwezig in de hoofden van mensen (indien deze mensen het bedrijf niet verlaten hebben of last hebben van vergeetachtigheid). Sommige kennis over data is simpelweg vergeten. Het proces loopt zoals het loopt en niemand is zich meer bewust van de precieze details met betrekking tot de data die wordt opgeslagen. Houd daarom bij het documenteren van data definities altijd rekening met het feit dat er voortschreidend inzicht zal zijn op dat gebied. Business processen zijn ook constant aan verandering onderhevig. Documentatie is dus nooit klaar en zal actief beheerd moeten worden. Het documenteren van datadefinties zou prioriteit één moeten hebben binnen business intelligence projecten. Helaas is de prioriteit vaak stukken lager. Vaak is het een sluitpost van het project. Een klusje voor als er tijd over is.

Robuste processen

Zoals gezegd, moet data betrouwbaar zijn. Als er bewerkingen worden uitgevoerd met de data, zullen deze gedocumenteerd moeten zijn. Handmatige bewerkingen van data zijn eigenlijk uit den boze, omdat deze meestal niet controleerbaar zijn. Replicatie processen zullen moeten worden bewaakt. Als er fouten optreden, moeten deze worden opgelost.

Less is more

Zoals gezegd is alleen relevante data van belang. Het komt wel eens voor dat de nadruk binnen business intelligence projecten ligt op het verzamelen van zoveel mogelijk data. Het kost niet alleen zeer veel tijd om al deze data te verzamelen, analyseren en vervolgens allerlei laadprocessen te ontwikkelen. Indien niet voldaan wordt aan de eerder genoemde zaken (het documenteren van definities, het goed modelleren zodat de data begrijpbaar wordt voor de doelgroep) voegt al deze data weinig toe. Beter is het om te focussen op kwaliteit en bijvoorbeeld incrementeel oplossingen te ontwikkelen die werkelijk toegevoegde waarde hebben.

Sneller beslissen leidt tot verandering

Het uiteindelijke doel van informatie is altijd veranderen. Als er geen intentie is om te veranderen, is er ook geen informatie nodig. Kwalitatief hoogwaardige en tijdige informatie kan tot gevolg hebben dat business processen worden aangepast. Deze wijzigingen kunnen weer invloed hebben op de inhoud en structuur van de data die uit de processen voortkomt. Een informatie producerend systeem zal dus met verandering moeten kunnen omgaan. Dit is een belangrijke bijkomende uitdaging voor business intelligence systemen.

Het bovenstaande wordt nog eens weergegeven in de onderstaande mind map.

Hoe data informatie wordt mindmap