Wet van Benford

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Afnemende reeks blauwe balken tegen een lichtgrijze achtergrond.
De verdeling van eerste getallen volgens de wet van Benford. Elke balk stelt een cijfer voor, en de hoogte is het percentage getallen dat met dat cijfer begint.

De Wet van Benford beschrijft de logaritmische kansverdeling van het begincijfer van getallen in grote dataverzamelingen waarin een beperkte mate van stochasticiteit optreedt. De wet van Benford werd in 1881 ontdekt door de Amerikaanse wiskundige en astronoom Simon Newcomb, maar kreeg grote bekendheid door de herontdekking en publicaties in 1938 van Frank Benford, een fysicus die zijn hele leven bij het Amerikaanse bedrijf General Electric heeft gewerkt.[1]

De wet voor het leidende cijfer van getallen[bewerken]

In 1938 publiceerde Benford een artikel in een wetenschappelijk tijdschrift,[2] waarin hij het verschijnsel beschrijft dat in veel verzamelingen van getallen uit het normale leven (maar niet allemaal) de meeste van die getallen met een 1 beginnen. Minder getallen beginnen met een 2 en de minste met een 9. Dit gaat in tegen het algemene gevoel dat de kans op een begincijfer voor alle cijfers van 1 tot en met 9 hetzelfde is, namelijk 1/9, oftewel ruim 11,1%. Benford toonde aan dat de kans dat in een reeks getallen een getal met een 1 begint ongeveer 30% is. De kans dat een getal met een 9 begint is daarentegen slechts 5%. Deze wetmatigheid is de wet van Benford gaan heten. Wiskundig wordt deze wet uitgedrukt met de volgende formule, die de waarschijnlijkheid geeft dat het eerste cijfer van een getal gelijk is aan d:

P(D_1 = d)=\log_{10} \left(1+\frac{1}{d}\right), voor\ d=1...9

Deze formule kunnen we naar de ontdekkers de formule van Newcomb-Benford noemen. Uit deze formule ontstaat de volgende tabel met frequenties:

begincijfer 1 2 3 4 5 6 7 8 9
frequentie (%) 30,1 17,6 12,5 9,7 7,9 6,7 5,8 5,1 4,6

Benford onderzocht enorme hoeveelheden numerieke gegevens, zoals de lengtes van rivieren, de oppervlakten van meren en landerijen, hoogtes van bergen, numerieke fenomenen uit de natuurkunde en scheikunde, wiskundige tafels, getallen uit kranten en tijdschriften, enzovoorts. Daardoor vond hij steeds meer empirisch bewijs voor de juistheid van zijn formule. Een verklaring voor de juistheid van zijn formule kon hij echter niet geven.

Velen hebben later de moeite genomen om grote datasets te onderzoeken op de geldigheid voor de wet van Benford. Tegenwoordig vindt dat onderzoek plaats met computers.

Een interessante bron voor onderzoek naar de wet van Benford vormt Plouffe's inverter, een database van meer dan 215 miljoen mathematische constanten.

Illustraties van de wet van Benford[bewerken]

Ingenieurs en technici die voor de komst van computers en elektronische rekenmachines met logaritmetabellen en rekenlinialen werkten bij het maken van complexe berekeningen ontdekten al snel dat ze vaker met getallen te maken hadden waarvan het leidende cijfer een 1 was dan een ander cijfer.

Die ontdekking is ook zelf gemakkelijk te doen. Bij een vermenigvuldiging van getallen met 2 wordt een leidende 1 omgezet in een 2 of een 3; wordt een leidende 2 omgezet in een 4 of een 5; wordt een leidende 3 omgezet in een 6 of een 7; wordt een leidende 4 omgezet in een 8 of een 9, maar worden de vijf leidende 5, 6, 7, 8 en 9 omgezet in een 1.

Dus bij een vermenigvuldiging met 2 van een grote groep willekeurig gekozen getallen komt in de producten de 1 als leidend cijfer al aanzienlijk vaker voor dan de ongeveer 11% die men zou verwachten op grond van een uniforme verdeling.

Fraaier is het effect waar te nemen in een spreadsheet. Laat de spreadsheet 1000 maal uitrekenen: (9*ASELECT()+1)*(9*ASELECT()+1)*(9*ASELECT()+1)*(9*ASELECT()+1) en tel hoe vaak ieder cijfer voorkomt als begincijfer van het product, dan zal men - afgezien van vrij kleine toevalsafwijkingen - de hier boven geschetste frequentieverdeling vinden.

De schaal-invariantiehypothese[bewerken]

Als verschijnsel is de wet van Benford eenvoudig waar te nemen; het blijkt echter verre van eenvoudig een goede (wiskundige) verklaring te geven waarom die wet zou moeten gelden.

In 1961 suggereerde de wiskundige Pinkham dat schaal-invariantie mogelijk een onderliggende verklaring van de wet van Benford is, maar hoe de wet van Benford uit die invariantie moest worden afgeleid was nog een raadsel. Schaal-invariantie betekent: als de leidende cijfers van de getallen die de waarde van fysische grootheden voorstellen voldoen aan een universeel geldende kansverdeling, zoals de logaritmische verdeling van Newcomb-Benford, dan moet die verdeling onafhankelijk zijn van de gekozen eenheden waarin die waarden worden uitgedrukt. Of die waarden worden uitgedrukt in bijvoorbeeld SI-eenheden of in Engels-Amerikaanse eenheden, de distributies van het leidende cijfer moeten identiek zijn.

In 1976 publiceerde Ralph A. Raimi het resultaat van een diepgaand onderzoek naar de wet van Benford, waarin hij alle tot dan toe bekende verklaringen analyseert.[3] Geen enkele bleek een definitieve verklaring voor de logaritmische verdeling van het begincijfer van getallen.

De Amerikaanse wiskundige Theodore P. Hill publiceerde in 1995 een baanbrekende studie over de wet van Benford die voor een doorbraak in het onderzoek zorgde.[4] Hill gebruikte in zijn studie moderne fundamentele waarschijnlijkheidsrekening als basis voor de verklaring van de wet. Hill bewees daarmee dat als schaal-invariantie optreedt in een grote dataverzameling, noodzakelijkerwijs de wet van Benford optreedt.

Kennelijk is schaal-invariantie - zoals voorkomt in grote verzamelingen van natuurlijke gegevens - een voldoende voorwaarde voor de wet van Benford, maar schaal-invariantie blijkt geen noodzakelijke voorwaarde te zijn. Er zijn verzamelingen te construeren waarin de wet van Benford geldt en waarin geen schaal-invariantie optreedt. Zulke verzamelingen construeert men bijvoorbeeld door getallen uit verschillende, onafhankelijke bronnen samen te voegen. Maar ook de bovenstaande illustratie van de wet van Benford, waarin een verzameling van producten van aselect gekozen getallen wordt geconstrueerd, laat zien dat er naar een diepgaandere verklaring dan schaal-invariantie moet worden gezocht.

In 1998 publiceerde Theodore Hill een vervolgstudie over de wet van Benford[5]. Hierin onderzoekt hij het gedrag van mantisses in producten van uit stochastische variabelen gekozen getallen door toepassing van bepaalde types centrale limietstellingen. De logaritmische kansverdeling van Newcomb en Benford blijkt steeds beter benaderd te worden naarmate het aantal stochastische variabelen toeneemt.

De studie van Hill uit 1998 wordt algemeen beschouwd als de meest bevredigende verklaring van de wet van Benford.

Afleiding van de formule van Newcomb-Benford[bewerken]

De kansdichtheidsfunctie[bewerken]

Dat schaal-invariantie leidt tot de formule van Newcomb-Benford is als volgt in te zien. We beperken ons in eerste instantie tot het halfopen interval [1,10). Ieder (positief) reëel getal is immers in wetenschappelijke notatie te schrijven als een mantisse in dit interval, vermenigvuldigd met een macht van 10. Voor negatieve getallen geldt de volgende redenering ook, na toevoeging van een minteken.

We gaan op zoek naar een continue kansdichtheidsfunctie f(x) gedefinieerd op het interval [1,10). Het interval [1,10) wordt door een vermenigvuldiging met de positieve constante k getransformeerd naar een interval [k,10k). We noemen de getallen in dit interval y en de kansdichtheidsfunctie op dit interval g(y). Omdat we schaal-invariantie veronderstellen moet gelden:

g(y) = c(k)f(x).

Hierin is c een functie van de factor k. Uit de schaal-invariantie volgt dat de kansdichtheidsfunctie g hetzelfde functievoorschrift moet hebben als de kansdichtheidsfunctie f:

f(kx)=g(y).

De oppervlakte onder beide kansdichtheidsfuncties moet gelijk zijn aan 1, dus:

\int_k^{10k} g(y)\,{\rm d}y = \int_k^{10k} c(k)f(x)\,{\rm d}y = c(k)k\int_{y=k}^{10k} f(x)\,{\rm d}x = c(k)k\int_{x=1}^{10} f(x)\,{\rm d}x = c(k)k = 1

Hieruit volgen:

c(k) = \frac{1}{k}\!

en:

f(kx) = \frac{1}{k}\!f(x)

Differentiëren we deze formule naar k, dan vinden we:

f'(kx)x = \frac{-1}{k^2}\!f(x)

Deze formule is geldig voor alle reële waarden van k, in het bijzonder voor 1. De gezochte kansdichtheidsunctie f(x) voldoet dus aan de volgende differentiaalvergelijking:

xf'(x) +f(x) = 0

De oplossingen van deze vergelijking zijn:

f(x) = \frac{A}{x}\!

Zonder de algemeenheid geweld aan te doen, kunnen we A gelijk stellen aan 1, en dus:

f(x) = \frac{1}{x}\!

Uit de schaal-invariantie volgt dus dat de bijbehorende kansdichtheidsfunctie de hyperbool is die gebruikt wordt bij het definiëren van de natuurlijke logaritme.

De formule van de logaritmische verdeling[bewerken]

De kansdichtheidsfunctie f(x) heeft het halfopen interval [1,10) als domein. Uit de definitie van de natuurlijke logaritme volgt:

\int_1^{10} \frac{1}{x}\!\,{\rm d}x = \ln(10)

De kans dat een getal x tussen twee getallen a en b in dit interval ligt is:

P(a<x<b) = \frac{1}{\ln(10)}\! \int_a^b \frac{1}{x}\!\,{\rm d}x = \log_{10} \left(\frac{b}{a}\right)

Alle getallen met leidend cijfer d (d = 1 t/m 9) liggen in het halfopen interval [d,d+1) zodat we uiteindelijk voor de kans dat een getal d als leidend cijfer heeft, vinden:

P(d) = \log_{10} \left(\frac{d+1}{d}\right)=\log_{10}\left(1+\frac{1}{d}\right)

Algemene wet voor leidende cijfers[bewerken]

De wet van Benford geldt niet alleen voor het leidende cijfer van getallen, de wet geldt ook voor tweede, derde en volgende cijfers. Die algemene wet wordt de General Significant Digit Law[6] genoemd. Daarmee kunnen we bijvoorbeeld de kans berekenen dat een getal, dat met ten minste drie cijfers wordt geschreven, met de cijfers 2, 7 en 1 begint:

P(2,7,1)=\log_{10} \left(1+\frac{1}{271}\right).

Radix-invariantie[bewerken]

In 1995 bewees Hill dat schaal-invariantie radix-invariantie impliceert. Daarmee wordt bedoeld dat de wet van Benford ook blijft gelden als het grondtal van het toegepaste talstelsel wordt gewijzigd. Zo is de kans dat een binair getal begint met de cijfers 1001 gelijk aan:

P(1,0,0,1)=\log_{2} \left(1+\frac{1}{9}\right) = 0,1520.

Merk op, dat alleen het grondtal van de logaritme hoeft te worden gewijzigd; in de breuk in de logaritme kunnen we het decimale equivalent (in het voorbeeld 9) van de binaire uitdrukking (in het voorbeeld 1001) blijven gebruiken.

Radix-invariantie verklaart ook de hierboven genoemde algemene wet voor het leidende cijfer. De wet van Benford geldt immers ook voor het talstelsel met het (in de praktijk natuurlijk onhandig grote) grondtal 1000. In dat talstelsel is bijvoorbeeld 271, of een ander daarvoor gekozen symbool, niet meer dan één van de cijfers, waarvoor de bijbehorende kans volgens de logaritmische verdeling kan worden berekend.

De kans op volgende cijfers[bewerken]

Door herhaalde toepassing van de formule van Newcomb-Benford kan men de kans uitrekenen dat bijvoorbeeld 5 als derde cijfer in een getal van ten minste drie cijfers voorkomt. Hiertoe is het handig de cijfers van het getal van rechts naar links te nummeren, te beginnen bij 0:

P(d_3=5) = \sum_{d_2=1}^9\ \sum_{d_1=0}^9\ \log_{10}\left( 1+\frac{1}{d_210^2+d_110^1+5} \right) =\sum_{i=100}^{990}\ \log_{10}\left( 1+\frac{1}{i+5} \right)=0,098788

Voorbeelden waar de wet geldig is[bewerken]

  • Getallen in facturen
  • Getallen in belastingsbrieven
  • Aantal inwoners
  • Lengte van rivieren
  • Fysische en mathematische constanten (Zie de Plouffe's inverter)
  • Priemgetallen

Toepassing: forensische analyse[bewerken]

In 1972 bedacht Hal Varian dat de wet van Benford gebruikt kan worden om mogelijke fraude op te sporen in lijsten met socio-economische gegevens ter ondersteuning van overheidsbeslissingen. Hij baseerde zich op de veronderstelling dat mensen die zelf getallen uitvinden geneigd zijn de cijfers uniform te verdelen. Door de frequentieverdeling van de eerste en volgende cijfers van de getallen te vergelijken met de verwachte verdelingen volgens de wet van Benford zouden anomalieën snel en geautomatiseerd opgemerkt kunnen worden.[7]

Verdergaand op dit idee toonde Mark Nigrini aan dat afwijkingen van de wet van Benford ook gebruikt kunnen worden als indicator van vervalsing van een boekhouding of uitgavenfraude.[8]

De wet van Benford werd gebruikt als bewijsmateriaal voor fraude in de Iraanse verkiezingen van 2009.[9] Sommige deskundigen verwerpen de toepassing van de wet van Benford echter in het geval van verkiezingsfraude.[10]

Bronnen, noten en/of referenties
  1. Achtergrondinformatie bij de Wet van Benford
  2. F. Benford. 1938. The law of anomalous numbers, Proceedings of the American Philosphical Society 78, p. 551-572
  3. Raimi, R.A., "The first Digit Problem", American Mathematics Monthly, aug./sept. 1976, p. 521-537
  4. Hill, T.P., "The Significant-Digit Phenomenon", American Mathematical Monthly, april 1995, p. 322-327
  5. Hill, T.P, "The first Digit Phenomenon", American Scientist, no. 86, 1998, p. 358-363
  6. Salm, S.A.M. van der, "Benford's Logarithmic Distribution of Digits", Journal of the Oughtred Society, Vol. 16, No. 2, 2007, p. 26-31
  7. Varian, Hal. Benford's law. The American Statistician 26: 65 .
  8. Mark J. Nigrini (mei 1999). I've Got Your Number. Journal of Accountancy .
  9. Stephen Battersby Statistics hint at fraud in Iranian election, New Scientist 24 juni 2009
  10. Joseph Deckert, Mikhail Myagkov and Peter C. Ordeshook, (2010) The Irrelevance of Benford’s Law for Detecting Fraud in Elections, Caltech/MIT Voting Technology Project Working Paper No. 9