Dataset

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Een gegevensverzameling of dataset is een verzameling van gegevens (data), meestal gepresenteerd in tabelvorm. Elke kolom vertegenwoordigt een bepaalde variabele. Elke rij komt overeen met een bepaald lid van de gegevensverzameling in kwestie. Deze rij bevat de waarden voor elk van de variabelen, of attributen, voor dit lid, bijvoorbeeld lengte en gewicht of ook willekeurige getallen. Elke waarde staat bekend als een datum. De gegevensverzameling kan gegevens voor een of meer leden bevatten, overeenkomend met het aantal rijen.

Een gegevensverzameling niet in tabelvorm kan de vorm hebben van een karakterstring, zoals een XML-bestand.

Geschiedenis[bewerken]

De term dataset is afkomstig uit de tijd van de mainframes, waar gegevensverzameling een precies omschreven betekenis bij IBM-mainframes had. Deze betekenis wordt hier niet behandeld.

Eigenschappen[bewerken]

Een gegevensverzameling heeft verscheidene kenmerken die de structuur en eigenschappen bepalen. Daartoe behoren het aantal en het type van de variabelen en de verschillende statistische kengetallen die erop van toepassing zijn, zoals gemiddelde, standaardafwijking, scheefheid.[1]

In het eenvoudigste geval is er slechts één variabele en bestaat de dataset uit een enkele kolom met waarden, vaak voorgesteld als een lijst. In tegenstelling tot wat de naam doet vermoeden, is zo'n univariate dataset geen verzameling in de gewone wiskundige betekenis, aangezien een bepaalde waarde meer keren kan voorkomen. Als de volgorde er niet toe doet, kan de dataset opgevat worden als een multiset in plaats van een (geordende) lijst.

De waarden kunnen getallen zijn, maar ook gegevens van nominaal of ordinaal niveau zijn. Voor elke variable zullen normaal gesproken de waarden van hetzelfde niveau zijn, al kunnen er wel gegevens ontbreken, wat op een of andere manier dient te worden aangegeven.

In de statistiek zijn datasets gewoonlijk het resultaat van een steekproef en bevat elke rij de waarnemingen aan een element van de populatie. Sommige moderne statistische software, zoals SPSS, gebruiken nog steeds de klassieke vorm van een dataset voor hun gegevens.

Klassieke datasets[bewerken]

Er bestaan in de statistische literatuur enkele klassieke datasets die uitvoerig geanalyseerd zijn:

Externe links[bewerken]

Bronnen