In deze tijd zijn we er continu mee bezig om feiten (gebeurtenissen) vast te leggen. Dat doen we via mobiele telefoons, laptops, smartwatches en sensoren (gps, weerstations, etc). Maar deze ongestructureerde brei aan digitale informatie is waardeloos zonder context. De context is het analyseren van data door deze te standaardiseren en te transformeren.
Zo zorgen we ervoor dat we deze feiten kunnen interpreteren en daardoor kunnen we onderbouwd besluiten nemen.
Big Data
Om deze feiten te standaardiseren moeten we ze opslaan, uitvraagbaar en visueel maken. In vergelijking met tien jaar geleden leggen we veel meer feiten vast en neemt de vraag naar opslag toe. Bovendien registreren we de feiten op verschillende manieren (selfies, posts/tweets en sensoren) en heb je kans dat feiten van tijdelijke aard zijn. In de basis noemen de we dit Big Data. Het is Big data als het tenminste voldoet aan de drie V’s.
Volume
In de boeken staat dat we de ‘volume’ van data uitdrukken in Terabytes en Pentabytes. Al die data kunnen we verzamelen, valideren en structuren in een Data Warehouse, maar in mijn ervaring is een Warehouse niet altijd geschikt om bepaalde vraagstukken te beantwoorden. Dit ga je merken wanneer de snelheid van antwoorden op een informatie vraagstuk langer duurt dan wenselijk is. Meer hierover in relationeel versus non relationeel.
Variety
Met de term Variety geven we de variëteit aan waarin we de feiten vastleggen. Traditioneel gezien worden feiten aangeleverd vanuit bronsystemen (CRM, ERP, etc.), maar tegenwoordig kan het overal vandaan komen en in ieder willekeurig format. Denk aan foto’s, video’s, platte informatie en hiërarchische informatie.
Velocity
Hier gaat het om vluchtige feiten. Dit zijn met name berichten die in de wachtrij (Queue) klaar worden gezet voordat ze worden verwijderd. Je kan dit een beetje zien als de wachtrij in de Efteling voor de achtbaan. De wachtrij heeft een bepaalde lengte en de karren van de achtbaan zijn het transport medium die verantwoordelijk zijn voor het veilig afleveren van de mensen.
We hebben Big Data en nu?
Zoals ik hiervoor al had beschreven, hebben feiten zonder context geen waarde. Ook binnen Big Data moet context gecreëerd worden om uit deze brei van data waarde te halen die kan leiden tot betere besluitvormingen. Traditioneel gezien slaan we deze feiten op in een relationele database en creëren we context door de feiten te transformeren naar business context (ETL -> Extract, Transform & Load).
Maar binnen Big Data verliezen we een hoop tijd en ook feiten (Velocity) wanneer we deze data opslaan in tabellen, zoals bij een relationele database. Dit is niet alleen zonde van de tijd, maar ook van de inspanning. Omdat de feiten die zijn opgeslagen in de berichten vaak ook al een standaard structuur hebben.
Daarom slaan we binnen Big Data de feiten op zoals ze zijn (“As Is). Als de data opgeslagen is op het Big Data platform kunnen we context gaan creëren (Transform). Dit proces heet ELT (Extract Load Transform) en verloopt dus anders dan het zojuist genoemde ETL.
Keuzes maken tussen de verschillende databases
Er zijn dus verschillende manieren om aan data context te geven. De keuze voor hoe je dat data opslaat en context geeft hangt af van welke systeem je gebruikt. Daarvoor kan je kiezen uit verschillende databases, documentstores of Hadoop (ecosystemen). Helaas is dat niet zo eenvoudig. Daarom ga ik daar in een volgende blog wat dieper op in. Hier leg ik uit wat de verschillen tussen deze systemen zijn en hoe je kan bepalen welke systeem het beste past bij jouw wensen/situatie.