Het Datawarehouse

Wat is een datawarehouse?

"A (data) warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process."

De bovenstaande definitie van een data warehouse is afkomstig van Bill Inmon, één van de grondleggers van datawarehousing. In de praktijk komt het neer op een database, waarin data wordt opgeslagen voor rapportage en analyse doeleinden. Over hoe zo'n datawarehouse eruit moet zien, bestaan verschillende meningen. De twee bekendste hiervan zijn: de klassieke benadering van Bill Inmon (CIF) en een wat meer modernere aanpak van Ralph Kimball.

De kenmerken van een datawarehouse zijn volgens de officiële definitie:

subject-oriented Een datawarehouse is subject-oriented. Dit wil zeggen dat data gegroepeerd is per onderwerp en niet per activiteit, zoals dit bij operationele systemen het geval is.
integrated Data in de verschillende bronsystemen, wijkt vaak af voor wat betreft gebruikte coderingen, dataformaten en data types. Voordat deze data in het datawarehouse geladen wordt, moet ze eerst op elkaar worden afgestemd.
time-variant Een datawarehouse bevat historische data. Dit betekent dat alle data gelinkt moet zijn aan een bepaalde periode in de tijd. Bovendien moet deze data precies de situatie weergeven zoals deze was op dat moment. In operationele systemen vindt men vaak alleen de situatie van het moment terug, omdat in het geval van wijzigingen bestaande data wordt overschreven.
non-volatile Data in een datawarehouse is statisch. Men gaat er vanuit dat data, nadat deze in het datawarehouse geladen is, niet meer veranderd.

Componenten van een Datawarehouse

In het onderstaande overzicht zijn de componenten te zien die onderdeel uit kunnen maken van een datawarehouse architectuur (klik op de onderdelen voor een beschrijving).

ERP systeem CRM systeem Legacy Systeem Staging area Enterprise datawarehouse Operational data store Datamart Datamart Datamart OLAP kubus ETL proces ETL proces ETL proces ETL proces ETL proces ETL proces Metadata Repository

Zoals gezegd, bevat het bovenstaande overzicht mogelijke componenten in een datawarehouse. Niet alle componenten hoeven altijd aanwezig te zijn. Zo is een ODS alleen nodig indien het behoefte bestaat aan vaak geupdate zeer recente informatie. Een EDW is ook meer een ideaal concept, dan iets wat men in de praktijk in zijn pure vorm zeer vaak tegen zal komen. Eén van de redenen hiervoor is, dat het ontwikkelen ervan een zeer tijdrovend en duur proces kan zijn. Bedrijven kiezen daarom vaak voor een packaged datawarehouse, een oplossing met datamarts (Kimball aanpak), of een combinatie hiervan.Nog geen lid?
Registreer nu gratis!
The world we have created is a product of our thinking. It cannot be changed without changing our thinking.

Albert Einstein