Passende kansverdeling

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Een passende kansverdeling of aangepaste kansverdeling is een kansverdeling die zo goed mogelijk past bij een reeks waarnemingen van een bij toeval optredende grootheid, of die daaraan zodanig is aangepast, dat de kansverdeling gebruikt kan worden voor statistische gevolgtrekkingen over die grootheid. De gevolgtrekkingen kunnen worden gebruikt bij de voorspelling van de regelmaat van het optreden van bepaalde waarden van de grootheid.

In de hydrologie, bijvoorbeeld, wordt vaak gebruikgemaakt van een hoge rivierafvoer die eens per zoveel jaar voorkomt. Deze gevolgtrekking kan voortkomen uit een aangepaste kansverdeling en kan worden gebruikt bij het ontwerp van verdedigingswerken tegen overstroming.[1]

Er bestaan vele kansverdelingen, zodat voor het bepalen van de passende kansverdeling, de keuze beperkt wordt tot een geschikte, toepasselijke klasse. Waar enkel de grootste waarde van belang is (de grootste golf, de sterkste windvlaag) worden extremewaardenverdelingen gebruikt.

Bepaling van de passende verdeling[bewerken]

Verschillende vormen van de symmetrische normale verdelingen afhankelijk van gemiddelde μ en spreiding σ
Scheefheid naar links en naar rechts

Om de klasse te bepalen waaruit de passende kansverdeling gekozen wordt, maakt men wel onderscheid in symmetrische en scheve verdelingen.

Symmetrische verdelingen[bewerken]

Als de gegevens symmetrisch (spiegelbeeldig) rond het gemiddelde zijn verdeeld, waarbij het aantal malen van voorkomen (de frequentie) afneemt met de afstand tot het gemiddelde, kan men bijvoorbeeld de normale verdeling, de 'logisitieke verdeling', of de Studentverdeling toepassen. De eerste twee komen sterk overeen terwijl de laatste, met 1 vrijheidsgraad 'dikkere staarten' heeft, maar ook een hogere, hoewel dunne piek (de verdeling heeft bij dezelfde spreidingsmaat een hogere kurtosis).

Scheve verdelingen[bewerken]

Als de grotere waarden verder verwijderd zijn van het gemiddelde dan de kleinere, is de verdeling 'scheef naar rechts (er is postieve scheefheid). In dat geval kan men een keuze maken uit de lognormale verdeling (dat wil zeggen dat de logaritmen van de waargenomen waarden normaal verdeeld zijn), de 'loglogistieke verdeling', de 'Gumbel-verdeling', de exponentiële verdeling, de 'Fréchet-verdeling', de Pareto-verdeling, of de Weibull-verdeling. Enkele van deze verdelingen zijn 'links begrensd', of wel: waarden beneden deze grens kunnen niet voorkomen.

Als de kleinere waarden verder verwijderd zijn van het gemiddelde dan de grotere dan, is de verdeling scheef naar links (er is negatieve scheefheid). In dat geval kan men een keuze maken uit de 'wortelnormale verdeling' (dat wil zeggen dat de wortels van de waargenomen waarden normaal verdeeld zijn) en de 'gespiegelde Gumbel-verdeling'. Enkele van deze verdelingen zijn 'rechts begrensd', of wel: waarden boven deze grens kunnen niet voorkomen.

Manieren van aanpassing[bewerken]

De volgende manieren van aanpassing kunnen worden gebruikt: :[2]

De cumulatieve Gumbel-verdeling aangepast aan de maximale dagneerslagen per maand in Suriname met gebruik van de regressiemethode en omgeven door binomiale 90% betrouwbaarheidskrommen
  • Regressiemethode, waarbij de cumulatieve verdeling door omrekening (transformatie) linear wordt gemaakt (dat wil zeggen de S-kromme wordt naar een rechte lijn teruggebracht) en de cumulatieve kans (Kx, dat is de kans dat het optreden van de waarde van een gebeurtenis kleiner is dan een waargenomen waarde X) wordt geschat als Kx=Rx/(n+1), waar Rx de rangorde van de waargenomen waarde X is.
Bijvoorbeeld, de cumulative Gumbel-verdeling kan vereenvoudigd (gelineariseerd) worden tot Y = aX+b, waar X is de waargenomen waarde is, en Y=-ln(-lnKx) de getransformeerde cumulatieve frequentie is, en 'ln' staat voor natuurlijke logaritme. Omdat X, Kx, en dus ook Y, bekend zijn, kunnen met een lineaire regressie de waarden van a and b berekend worden, waarmee de Gumbel-verdeling volledig is bepaald.

Statistische betrouwbaarheid[bewerken]

Negen kansverdelingen van herhalingsperioden van 50-jarige steekproeven uit een theoretisch gevormde 1000 jarig waarnemingsbestand (basis lijn) [6]

Het gebruik van een aangepaste kansverdeling is onderworpen aan statistische onzekerheid te wijten aan de volgende omstandigheden:

90% binomiale betrouwbaarheidskrommen op logaritmische schaal in afhankelijkheid van het aantal waarnemingen (N)
  • De ware kansverdeling van de gebeurtenissen kan afwijken van de aangepaste verdeling wanneer de waarnemingsreeks door toevallige omstandigheden niet geheel overeenkomt met de werkelijke kansverdeling;
  • De kansverdeling van toekomstige gebeurtenissen kan afwijken van de aangespaste verdeling omdat deze ook onderworpen zijn aan toevalligheid;
  • Een verandering van omgevingsomstandigheden kan een verandering veroorzaken in de kansverdeling van het waargenomen verschijnsel.

In het eerste geval kan de onzekerheid aangegeven worden met een betrouwbaarheidskromme. Bij cumulatieve kansverdelingen kan deze kromme berekend worden met de binomiale verdeling

Histogram[bewerken]

Histogram afgeleid van een aangepaste cumulatieve kansverdeling

Van een aangepaste kansverdeling kan een histogram (een afbeelding die aangeeft hoe vaak de waarde van een gebeurtenis tussen bepaalde grenzen -het interval- voorkomt) worden afgeleid. Het histogram geeft een wat duidelijker inzicht in de aangepaste kansverdeling dan de cumulatieve verdeling waarin de intervallen op elkaar zijn gestapeld.

Externe links[bewerken]

Referenties[bewerken]

  1. E.H.Chbab en J.M. van Noortwijk (2002), Bayesiaanse statistiek voor de analyse van extreme waarden, RIZA Rijksinstituut voor Integraal Zoetwaterbeheer en Afvalwaterbehandeling, Lelystad. ISBN 9036954231. Online : [1]
  2. Frequency and Regression Analysis. Chapter 6 in: H.P.Ritzema (ed., 1994), Drainage Principles and Applications, Publ. 16, pp. 175–224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 9070754339. Free download from the from webpage [2] under nr. 12, or directly as PDF : [3]
  3. H. Cramér, Mathematical methods of statistics , Princeton Univ. Press (1946)
  4. Hosking, J.R.M. (1990). L-moments: analysis and estimation of distributions using linear combinations of order statistics. Journal of the Royal Statistical Society, Series B 52: 105–124 .
  5. Aldrich, John (1997). R. A. Fisher and the making of maximum likelihood 1912–1922. Statistical Science 12 (3): 162–176 . DOI:10.1214/ss/1030037906.
  6. Benson, M.A. 1960. Characteristics of frequency curves based on a theoretical 1000-year record. In: T.Dalrymple (ed.), Flood frequency analysis. U.S. Geological Survey Water Supply paper 1543-A, pp. 51–71