Verdelingsvrije statistiek: verschil tussen versies

Uit Wikipedia, de vrije encyclopedie
Verwijderde inhoud Toegevoegde inhoud
k link
Geen bewerkingssamenvatting
Regel 48: Regel 48:
{{Toetsnavigatie}}
{{Toetsnavigatie}}
[[Categorie:Statistiek]]
[[Categorie:Statistiek]]
[[Categorie:Statistische toets]]
[[en:Non-parametric statistics]]
[[en:Non-parametric statistics]]
[[it:Test non parametrico]]
[[it:Test non parametrico]]

Versie van 1 dec 2006 13:08

Een verdelingsvrije toets is een statistische toets waarbij geen aannamen over de verdelingsfunctie en bijhorende parameters nodig zijn. Bij de meestgebruikte statistische toetsen wordt er wel van uitgegaan dat de gemeten waarde verdeeld zijn volgens een bepaalde verdelingsfunctie, bijvoorbeeld de normale verdeling.

Een verdelingsvrije toets wordt ook wel een parametervrije toets genoemd, maar die naam is eigenlijk slecht gekozen. Het is namelijk een methode waar best parameters in mogen voorkomen. De term 'niet-parametrische methode' is een slechte vertaling uit voornamelijk Engelstalige literatuur ('non parametric method'). In het Nederlands is de officiële aanduiding beduidend accurater: verdelingsvrije methode. (Zie [1].)

Voor- en nadelen

Het voordeel van verdelingsvrije methoden is, dat ze breder toepasbaar zijn dan parametrische methoden. Parametrische methoden zijn alleen toepasbaar als aan twee voorwaarden is voldaan:

  • men kent de verdelingsfunctie van de grootheid. Om de verdelingsfunctie van een grootheid te bepalen heeft men echter een vrij grote hoeveelheid data nodig. Vaak is het gewoon te duur of niet mogelijk om zo veel te meten.
  • men beschikt over een statistische toets voor die verdeling.

Nu is het in de natuurwetenschap inderdaad vrij vaak zo dat herhaaldelijk gemeten grootheden een normale verdeling bezitten. Dit is een direct gevolg van de centrale limiet stelling. Omdat een meting al gauw ergens een gemiddelde over voorstelt (bijvoorbeeld een gemiddelde over alle moleculen in het monster of alle fotonen in de straal) is er een drijvende kracht die normaliteit bevordert. In die gevallen kan een parametrische methode toegepast worden.

Een nadeel van verdelingsvrije methoden is dat deze minder efficiënt zijn omdat ze een deel van de informatie verwaarlozen.

Bij twijfel over het normaalgedrag zou het dus bijzonder wenselijk zijn om methoden te hebben die goed blijven functioneren ook als de data niet normaal zijn. Dit zijn de verdelingsvrije methoden.

Kenmerk van verdelingsvrije methoden

Kenmerkend voor verdelingsvrije methoden is dat niet de meetwaarden zelf worden gebruikt maar een afgeleide daarvan. Een voorbeeld is het bepalen van correlatie tussen paren van gemeten grootheden. Een verdelingsvrije methode is de rangcorrelatietoets van Spearman. Hierbij worden de gemeten waarden omgezet naar rangnummers waarna wordt getoetst of die rangnummers correleren. De feitelijke meetwaarden, en dus ook hun kansverdeling, heeft daarom geen invloed op de uitkomst van de toets.

Voorbeelden

Voorbeelden van verdelingsvrije toetsen zijn:

Runstoets

De runstoets kijkt of er een significante trend is te zien in een reeks meetwaarden. Evenals bij de tekentoets, wordt alleen naar de tekens gekeken, waarbij + staat voor een toename en - voor een afname van de meetwaarde ten opzichte van de vorige.

Stel een opeenvolging van volgende tekens:

++-+---+-

Hierbij kunnen we 6 groepen van tekens onderscheiden, er wordt 5 keer van teken gewisseld. In een tabel kan dan worden nagegaan voor een bepaald aantal + (in dit geval 4) en een bepaald aantal - (in dit geval 5) tussen welke waarden het aantal groepen moet liggen om random te zijn.

De reeks wordt als random beschouwd, indien het aantal groepen niet te klein en niet te groot is.

Een voorbeeld van een reeks met te weinig groepen om random te zijn:

++++-----    

Een voorbeeld van een reeks met te veel groepen om random te zijn:

-+-+-+-+-    


Sjabloon:Toetsnavigatie