Big data

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Men spreekt van big data wanneer men werkt met een of meer datasets die te groot zijn om met reguliere databasemanagementsystemen onderhouden te worden. Big data spelen een steeds grotere rol. De hoeveelheid data die opgeslagen wordt, groeit exponentieel. Dit komt doordat consumenten zelf steeds meer data opslaan in de vorm van bestanden, foto's en films (bijvoorbeeld op Facebook of YouTube) en organisaties steeds meer data produceren, maar ook doordat steeds meer apparaten zelf data verzamelen, opslaan en uitwisselen (het zogenaamde internet der dingen). Hierdoor is er steeds meer sensordata beschikbaar. Niet alleen de opslag van deze hoeveelheden is een uitdaging. Ook het analyseren van deze data speelt een steeds grotere rol. Deze data bevatten immers een schat aan informatie voor verschillende doeleinden, zoals marketing, wetenschappelijk onderzoek, of preventief onderhoud.

Definitie[bewerken]

De definitie van big data is niet altijd duidelijk en de term big data wordt vaak ten onrechte gebruikt. Volgens Gartner gaat het om drie factoren[1]:

  • de hoeveelheid data;
  • de snelheid waarmee de data binnenkomen en/of opgevraagd worden;
  • de diversiteit van de data. Hiermee wordt met name bedoeld dat de data ongestructureerd is en niet in een traditionele database opgeslagen kan worden.

Als aan minimaal twee van bovenstaande factoren is voldaan, spreekt men in het algemeen over big data.

Drie andere factoren zijn:

  • de variatie in de data. M.a.w. verschillende bronnen kunnen elkaar tegenspreken en het geheel extra compliceren;
  • de kwaliteit van de data: de ene bron is minder betrouwbaar dan de andere;
  • de complexiteit van de data: de mate waarin ongestructureerde data van verschillende bronnen met elkaar te combineren zijn.

In het Engels worden deze eigenschappen vaak aangeduid als 'de v's', volume, velocity en variety voor de eerste drie kenmerken en variability en veracity voor variatie en kwaliteit.[2]

Datascientist[bewerken]

Big data hebben tot de opleving van het vakgebied van de datascientist geleid. Hierbij gaat het om de statistische analyse van de gegevens, waarbij men nog onbekende verbanden probeert te ontdekken. Er is geen vastomlijnde definitie van een datascientist, maar over het algemeen heeft een datascientist kennis van data, programmeren en wiskunde.

Toepassingen[bewerken]

  • De Large Hadron Collider heeft 150 miljoen sensoren, die samen zo'n 40 miljoen metingen per seconde doen. Het verwerken van deze grote hoeveelheid metingen en het trekken van conclusies daaruit vereist veel rekenkracht.
  • Het Amerikaanse bedrijf Walmart verwerkt meer dan een miljoen transacties per uur, die op een slimme manier in databases opgeslagen moeten worden. Uit deze grote berg gegevens kunnen verbanden tussen verschillende producten gedestilleerd worden (bijvoorbeeld hamburgers en broodjes, maar in veel gevallen zijn de verbanden minder voor de hand liggend). Ook kunnen klanten op basis van hun aankoopgedrag ingedeeld worden naar diverse kenmerken. Door geavanceerde statistische analyses uit te voeren kan Walmart niet alleen vrij nauwkeurig inschatten wat het geslacht, inkomen, de sociale klasse en de gezinssituatie van een klant is, maar kunnen ook levensgebeurtenissen zoals huwelijk, geboorte, echtscheiding en overlijden met vrij grote precisie gedetecteerd worden aan de hand van veranderingen in aankoopgedrag.
  • Big data: de Shell search is de titel van een Nederlandse tv-documentaire, een experiment in onderzoeksjournalistiek uit 2013, over hoe het doorzoeken van big data journalistiek nieuws kan opleveren over de handel en wandel van een multinational.[3]
  • Toen in 2009 de Mexicaanse griep toesloeg, kon Google de verspreiding volgen door te zien in welke regio's naar griepgerelateerde klachten werd gezocht. Deze analyse werd wel vertroebeld doordat veel mensen die via het nieuws over de ziekte hadden gehoord, al gingen zoeken terwijl ze (nog) niet ziek waren.

Wettelijke kaders persoonsgegevens[bewerken]

De Algemene verordening gegevensbescherming (en de Wet bescherming persoonsgegevens) regelt de omgang met persoonsgegevens, en definieert de rechten van individuen en de plichten voor partijen die persoonsgegevens verwerken. De werking van de AVG is breed: zij is van toepassing op alle tot een persoon herleidbare gegevens en vormt een belangrijk uitgangspunt voor de verantwoorde omgang met persoonsgegevens. onbekendheid met en onzekerheid over de toepassing en implicaties van wettelijke eisen hun parten speelt. Daarnaast worden sommige eisen als lastig en zelfs als onuitvoerbaar ervaren. Een verantwoorde verwerking van gegevens biedt alle partijen echter voordelen. Consumenten zullen eerder bereid zijn om gegevens te delen in het vertrouwen dat bedrijven zorgvuldig met hun gegevens omgaan en er mogelijkheden zijn tot controle en verantwoording. Bedrijven profiteren van het vertrouwen dat consumenten in hen stellen en kunnen daardoor datagedreven producten en diensten blijven ontwikkelen. Het maakt bovendien de bedrijfsvoering rond gegevens inzichtelijk en controleerbaar en ondervangt daarmee bepaalde risico’s zoals datalekken. De wetgeving, die soms wordt ervaren als een last, kan als een prikkel fungeren om op verantwoorde wijze met persoonsgegevens om te gaan en daarin nationaal en internationaal zelfs onderscheidend te zijn. [4]

Zie ook[bewerken]