Data is overal tegenwoordig. In het nieuws komen regelmatig stellingen voorbij zoals ‘Data is het nieuwe goud’ en ‘Elk bedrijf is een data bedrijf’. Data staat centraal in het privacy debat, waar het gaat over overheden en grote bedrijven die onze data verzamelen. Big Data is het buzzword van het moment. Iedereen wil het, maar is er tegelijkertijd ook een beetje bang voor. Maar wat is data nou precies? Welke data heb je zelf in huis, hoe kan je aan nieuwe data komen en hoe bepaal je of die data nuttig is? Wanneer wordt data big?

In een blog om een digital mindset te krijgen, mag data niet ontbreken. Dit is de eerste post in een serie over data. We beginnen bij twee dingen die vaak verward worden, want de eerste stap in het gebruiken van data, is het herkennen van data.

Data vs informatie

Om te beginnen wil ik het hebben over het verschil tussen data en informatie. De twee lijken erg op elkaar, maar zijn fundamenteel verschillend. Data zijn de ruwe, onverwerkte gegevens. Informatie is gestructureerde data in een nuttige context. Een tabel met losse getallen is data. Een grafiek op basis van die tabel geeft ons informatie.

NaamAantal
artikelen
J. Jansen2
P. Smid3
B. Malus1
Data

Informatie

Iedereen die voor geschiedenis een lijst jaartallen uit het hoofd moest leren, weet dat het menselijk brein niet gemaakt is om data op te slaan. Misschien heb je in de geschiedenisles de tip gekregen om het voor jezelf uit te tekenen op een tijdlijn en er voor jezelf een verhaal van opeenvolgende gebeurtenissen van te maken. Dit werkt, omdat het menselijk brein makkelijker dingen onthoudt als ze in context geplaatst worden. Ons brein werkt vrijwel uitsluitend met informatie, geen data.

Ons geheugen kan maar een beperkte hoeveelheid losse feitjes opslaan. Daarom zijn wij als mensen geëvolueerd om snel gegevens te filteren, in context te zetten en samen te vatten in een vorm die alleen de nuttige dingen bewaard. Voor computers geldt het tegenovergestelde. Voor een computer maakt het niet uit hoe groot de lijst met getallen is. Computers hoeven niet samen te vatten, ze kunnen alle data in het geheugen kwijt. Informatie, daarentegen, is gelinkt aan onze menselijke interpretatie

Dit is belangrijk, want de eerste stap in het gebruiken van data, is het herkennen van data. Je kan ontzettend veel informatie hebben in de vorm van rapporten, grafieken of expertise, maar dat betekent niet dat een computer daar iets mee kan.


Een handige vuistregel: Als je het in een Excelsheet kan zetten, is het data. Anders is het waarschijnlijk informatie en niet geschikt voor data analyse.


Het maakt niet uit of je Excelsheet drie miljoen regels heeft en 100.000 kolommen. Als je het in een Excelsheet kan zetten, dan is het data. Het is belangrijker dat elke kolom maar één soort gegevens bevat en dat er geen lege cellen zijn. Het is niet heel nuttig om een Excelsheet te hebben met een kolom ‘rapporten’ met in elke cel de volledige tekst van een rapport. Een van de problemen met tekstanalyse (Natural Language Processing) is dat het zo lastig is om een tekst om te zetten in een nette en nuttige lijst waar een computer iets mee kan.

Een database is achter de schermen niks anders dan een verzameling van tabellen, waar een cel naar een andere tabel kan linken. Als je jouw data in een Excelsheet of een verzameling sheets kan zetten, ben je al een eind op weg in het proces

De eerste stap om als afdeling een datagedreven aanpak te ontwikkelen, is om te zorgen dat je zoveel mogelijk data opslaat. Door meteen te beginnen met alles wat data kan zijn netjes te verwerken en op te slaan, heb je later een dataset waar je vervolgens informatie uit kan halen.

Explore post tags

Comments are closed