Big data

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Men spreekt van big data wanneer men werkt met een of meer datasets die te groot zijn om met reguliere databasemanagementsystemen onderhouden te worden. Big data spelen een steeds grotere rol. De hoeveelheid data die opgeslagen wordt, groeit exponentieel. Dit komt doordat consumenten zelf steeds meer data opslaan in de vorm van bestanden, foto's en films (bijvoorbeeld op Facebook of YouTube) maar ook doordat er steeds meer apparaten zelf data verzamelen, opslaan en uitwisselen (het zogenaamde internet der dingen) en er steeds meer sensordata beschikbaar zijn. Niet alleen de opslag van deze hoeveelheden is een uitdaging. Ook het analyseren van deze data speelt een steeds grotere rol. Deze data bevatten immers een schat aan informatie voor marketingdoeleinden.

Definitie[bewerken]

De definitie van big data is niet altijd duidelijk en de term big data wordt vaak ten onrechte gebruikt. Volgens Gartner gaat het om drie factoren:

  • de hoeveelheid data;
  • de snelheid waarmee de data binnenkomen en/of opgevraagd worden;
  • de diversiteit van de data. Hiermee wordt met name bedoeld dat de data ongestructureerd zijn en niet in een traditionele database opgeslagen kunnen worden.

Als aan minimaal twee van bovenstaande factoren is voldaan, spreekt men in het algemeen over big data.

Drie andere factoren zijn:

  • de variatie in de data. M.a.w. verschillende bronnen kunnen elkaar tegenspreken en het geheel extra compliceren;
  • de kwaliteit van de data: de ene bron is minder betrouwbaar dan de andere;
  • de complexiteit van de data: de mate waarin ongestructureerde data van verschillende bronnen met elkaar te combineren zijn.

Datascientist[bewerken]

Big data hebben tot de opleving van het vakgebied van de datascientist geleid. Hierbij gaat het om de statistische analyse van de gegevens, waarbij men nog onbekende verbanden probeert te ontdekken.

Toepassingen[bewerken]

  • De Large Hadron Collider heeft 150 miljoen sensoren, die samen zo'n 40 miljoen metingen per seconde doen. Het verwerken van deze grote hoeveelheid metingen en het trekken van conclusies daaruit vereisen veel rekenkracht.
  • Het Amerikaanse bedrijf Walmart verwerkt meer dan een miljoen transacties per uur, die op een slimme manier in databases opgeslagen moeten worden. Uit deze grote berg gegevens kunnen verbanden tussen verschillende producten gedestilleerd worden (bijvoorbeeld hamburgers en broodjes, maar in veel gevallen zijn de verbanden minder voor de hand liggend). Ook kunnen klanten op basis van hun aankoopgedrag ingedeeld worden naar diverse kenmerken. Door geavanceerde statistische analyses uit te voeren kan Walmart niet alleen vrij nauwkeurig inschatten wat het geslacht, inkomen, de sociale klasse en de gezinssituatie van een klant is, maar kunnen ook levensgebeurtenissen zoals huwelijk, geboorte, echtscheiding en overlijden met vrij grote precisie gedetecteerd worden aan de hand van veranderingen in aankoopgedrag.
  • Big data: de Shell search is de titel van een Nederlandse tv-documentaire, een experiment in onderzoeksjournalistiek uit 2013, over hoe het doorzoeken van big data journalistiek nieuws kan opleveren over de handel en wandel van een multinational.[1]
  • De Amerikaanse winkelketen Target kwam in het nieuws, doordat ze folders over babybenodigdheden naar een vrouw hadden gestuurd, nog voordat haar familie wist dat ze zwanger was. Het bedrijf wilde zich bewust op zwangeren richten omdat zwangerschap een van de weinige periodes in iemands leven is waarin de vastgeroeste winkelpatronen doorbroken kunnen worden. Via statistische analyse was het bedrijf in staat zwangeren te herkennen aan hun veranderde aankoopgedrag. Critici stelden dat het bedrijf weliswaar babyfolders naar zwangeren stuurde, maar mogelijk ook veel van die folders naar niet-zwangeren had gestuurd.[2]
  • Toen in 2009 de Mexicaanse griep toesloeg, kon Google de verspreiding volgen door te zien in welke regio's naar griepgerelateerde klachten werd gezocht. Deze analyse werd wel vertroebeld doordat veel mensen die via het nieuws over de ziekte hadden gehoord, al gingen zoeken terwijl ze (nog) niet ziek waren.

Zie ook[bewerken]