Elo-rating

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Een Elo-rating is een getalsmatige aanduiding van de sterkte van een speler. Het wordt het meest gebruikt in schaken, dammen en go, maar kan in principe gebruikt worden bij elke sport waarbij spelers 1 tegen 1 spelen.

Het wiskundige systeem hiervoor is bedacht door de Amerikaanse natuurkundige en schaker Árpád Élő.

Elo-ratings kunnen lopen van ongeveer 1000 tot bijna 2900.

Methode[bewerken]

Árpád Élő constateerde op grond van statistisch onderzoek dat de verdeling van speelsterktes van schaakspelers lijkt op een normaalverdeling. Aansluitend op het bestaande ratingsysteem van de USCF koos Élő voor een klasse-indeling van C = 200 punten. De klasse-indeling wordt gelijk gesteld aan de standaardafwijking σ van de spelerperformance. De standaardafwijking van een wedstrijd tussen twee spelers wordt: σ = 200√2. Op basis van deze verdeling legde hij een relatie tussen ratingverschil en winstkans. Deze relatie ziet er in tabelvorm zo uit:

Verschil Sterke speler Zwakke speler Verschil Sterke speler Zwakke speler
0 0.50 0.50 300 0.85 0.15
25 0.53 0.47 350 0.89 0.11
50 0.57 0.43 400 0.92 0.08
100 0.64 0.36 450 0.94 0.06
150 0.70 0.30 500 0.96 0.04
200 0.76 0.24 735 0.99 0.01
250 0.81 0.19 > 735 1.00 0.00

De door Elo ontworpen tabel (2.11 The Percentage Expectancy Table)[1]. wordt door de FIDE nog steeds gebruikt (tabel 8.1b)[2]. De tabel is opgebouwd met σ = 2000 / 7 als benadering van 282,84. Stel dat het ratingverschil tussen twee spelers gelijk is aan 300. Delen door σ geeft een Z-score van 1,05. Volgens de cumulatieve normaalverdeling geeft dit een winstkans van 0,8531, afgerond 85%.

Om na een aantal gespeelde partijen de rating aan te passen wordt aan de hand van de winstverwachting de verwachte score berekend. Deze wordt vergeleken met de daadwerkelijke score. Met dit verschil wordt in een formule de toe-of afname van de rating bepaald. Men gebruikt doorgaans de volgende formule: EloWinst = K*(W-We) ,met W de uitslag van de partij, en We de verwachte score, vastgelegd volgens tabellen en formules. In België (en nog een aantal andere landen) telt deze formule pas vanaf 20 partijen. Daarvoor wordt een ander systeem gebruikt.

Voorbeeld

Vladimir Kramnik speelde mee in het Wereldkampioenschap schaken 2007 in Mexico. Zijn FIDE-rating voor het toernooi was 2769. De gemiddelde rating van zijn tegenstanders was 2749. Zijn winstkans was 0.528. Het toernooi ging over 14 partijen, zijn verwachte score was 7.39. Kramnik scoorde 8 punten. Zijn nieuwe rating wordt dan als volgt berekend:

Nieuwe rating(2775) = Oude rating(2769) + ( score(8) - verwachte score(7.39)) * K-factor(10)

De K-factor is een door de berekenende organisatie vastgestelde coëfficiënt die meestal afhangt van de rating en het aantal gespeelde partijen.

Implementatiedetails kunnen per bond verschillen. Zo is het ook mogelijk om ratingverschillen cumulatief per partij te berekenen, hetgeen een iets nauwkeuriger rating oplevert.

K-factor in België[bewerken]

De K-factor is een factor die vermenigvuldigd wordt met je winst- of verlieskansen om zo je respectievelijke elowinst of -verlies te bereken. Hoe hoger de waarde, hoe vlugger je elo verandert. In België heb je de volgende waarden. (Dit hangt af van allerlei systemen)

Elo Aantal partijen K-factor
- <20 andere berekening
- 20-100 32
- 101-300 24
<= 2000 >300 16
> 2000 >300 12
> 2200 >300 10

K-factor volgens Fide[bewerken]

De FIDE berekent ook elo's, maar volgens een ander systeem. We noemen dit dan ook de FIDE-elo's. Dit systeem is strenger dan het Belgische model.

Geschiedenis[bewerken]

De Amerikaanse Schaakfederatie (United States Chess Federation) voerde in de jaren 50 een ratingsysteem in, ontworpen door Kenneth Harkness. Dit systeem voldeed niet helemaal. In 1960 ging de USCF over op het systeem van Elo, die overigens veel van dat van Harkness had overgenomen. In 1970 werd het overgenomen door de FIDE en sindsdien heeft vrijwel elke schaakbond het toegepast.

Toepassingen[bewerken]

Wat schaken betreft wordt de feitelijke berekening op internationaal niveau uitgevoerd door de FIDE en de ICCF en op nationaal niveau door de landelijke schaakbond, in Nederland de KNSB en in België de KBSB. Elke organisatie die een rating berekent, gebruikt een andere verzameling spelers en partijen, en een andere ratingperiode. De FIDE-rating dient wat betreft de hoogte enigermate als ijkpunt. Daardoor zijn ze onderling tot op zekere hoogte vergelijkbaar. Wel zijn er verschillen in de exacte wijze waarop nieuwe uitslagen in de diverse ratings worden verwerkt.

Ook de Vlaamse Tafeltennisliga gebruikt het elo-systeem op haar resultatenwebsite - zij het louter indicatief.

Toernooiprestatierating[bewerken]

Vaak wordt bij een toernooiuitslag voor elke deelnemer de toernooiprestatierating (TPR) vermeld, die aangeeft op welk ratingniveau deze heeft gepresteerd. De TPR wordt berekend uit de score en de gemiddelde rating van de tegenstanders.[3] [2]

Lijstprestatierating (LPR)[bewerken]

De KNSB berekent een prestatiemeting, de Lijst Prestatie Meting[4], op basis van individuele uitslagen.

"De LPR is die rating waarvoor zou gelden dat het totaal van de te verwachten scores (Wx op basis van de LPR) het totaal van de werkelijk behaalde scores het dichtst benadert. Hierbij wordt bij een 0% of 100% score één fictieve “remise tegen zichzelf” (Ro) toegevoegd."

Een berekende ratingverandering kan worden gelimiteerd door de LPR.

Relatieve ratings[bewerken]

Als er toernooiresultaten bekend zijn over een langere periode, dan kunnen relatieve ratings worden vastgesteld, ook als spelers niet tegen elkaar hebben gespeeld. Elo werkt dit uit (R5), op basis van de onderstaande kruistabel. De data bestaat uit 342 partijen gespeeld tussen 1846 en 1862. [5].

W P
R5 Player A Ha Ho K L M P S W Wins Pct.
552 Anderssen 10½ 10½ 5 4 5 4 40½ .513
518 Harrwitz 14½ 16 0 21 64 .542
406 Horwitz ½ 11½ 1 1 11 32½ .378
516 Kolisch 3 17 32 .500
505 Lowenthal 3 11 5 2 11 36½ .474
695 Morphy 13 10½ 38½ .726
502 Paulsen 4 19 25½ .447
508 Staunton 1 7 20 0 11 39 .591
425 Williams 6 8 10 33½ .399
514 Losses:L 38½ 54 53½ 32 40½ 14½ 31½ 27 50½ 342

Voor het aanpassen van de relatieve rating van een speler hanteert Elo de volgende formule:

Rp = Rc + D(P) (E1)

Rp is de eigen rating en Rc de gemiddelde rating van de tegenstanders, gewogen per gespeelde partij.

De relatieve rating wordt nu door successieve benaderingen berekend:

  1. Wijs aan alle spelers één initiële rating Ri toe, groot genoeg om tijdens de iteratie positief te blijven.
  2. Vind voor iedere speler de D(P) op basis van het werkelijke scoringspercentage P en de relatie tussen winstkans en rating verschil.
  3. Bereken vervolgens voor iedere speler de eerste correctie R1 op basis van regel (E1), met Rc = Ri.
  4. Bepaal vervolgens voor iedere speler het gewogen gemiddelde van de tegenstanderratings Rc1.
  5. Bepaal de tweede benadering op basis van formule (E1), met Rc = Rc1.
  6. Vervolg de berekening totdat de berekende ratings weinig veranderen.

Deze methode convergeert niet bijzonder snel.

Relatieve ratings gaan terug tot Thurstone (1927) [6], en Zermelo (1928) [7]. Een overzicht van de ontwikkelingen in dit gebied vind u in [8].

Berekening relatieve ratings[bewerken]

De relatieve ratings kunnen beschouwd worden als het nulpunt van de meer dimensionale functie:

We(x) - W = 0,

Hierin is W de rij van werkelijke scores, We(x) de rij van de verwachte scores als functie van x, en x de rij van ratings. Het nulpunt van deze functie kan met iteratieve methodes[9] efficiënt worden bepaald.

De betrouwbaarheid van ratings[bewerken]

Als het aantal gespeelde partijen klein is, dan kunnen we de verschillen tussen werkelijke score W, en verwachte score We testen, onder de aanname dat de verschillen |W - We| normaal verdeeld zijn.

  1. percentage spelers met |W - We| ≤ 0,6745 * σ is groter dan 50% (8 spelers)
  2. percentage spelers met |W - We| ≤ 1 * σ is groter dan 68,3% (11 spelers)
  3. percentage spelers met |W - We| ≤ 2 * σ is groter dan 95,6% (16 spelers)

Als voorbeeld kiest Elo[10] de grootmeestergroep van het Hoogovens Schaaktoernooi, editie 1975.

37e Hoogovens Schaaktoernooi, Wijk aan Zee 1975, Grootmeestergroep
Player R W Da P(Da) We W - We PE 1.σ 2.σ
Lajos Portisch 2635 10,5 101 0,64 9,74 0,76
Vlastimil Hort 2600 10,0 66 0,59 8,94 1,06
Jan Smejkal 2600 9,5 66 0,59 8,94 0,56
Lubomir Kavalek 2555 9,0 21 0,53 7,98 1,02
Svetozar Gligoric 2575 8,5 41 0,56 8,46 0,04
Robert Hübner 2615 8,5 81 0,61 9,26 -0,76
Gennadi Sosonko 2470 8,5 -64 0,41 6,06 2,44 * *
Walter Browne 2550 8,0 16 0,52 7,82 0,18
Jefim Geller 2600 8,0 66 0,59 8,94 -0,94
Jan Timman 2510 8,0 -24 0,47 7,02 0,98
Semyon Furman 2560 7,0 26 0,54 8,14 -1,14
Kick Langeweg 2410 6,5 -124 0,33 4,78 1,72 *
Hans Ree 2470 5,5 -64 0,41 6,06 -0,56
Jan Hein Donner 2485 5,0 -49 0,43 6,38 -1,38 *
Frans Kuijpers 2445 4,0 -89 0,38 5,58 -1,58 *
Luben Popov 2460 3,5 -74 0,40 5,9 -2,4 * *
Gemiddeld 2534 61 0,58 σ = 1,91

De kolom Da is het verschil tussen de eigen rating en de gemiddelde rating van de groep, 2534 in dit voorbeeld. Het gemiddelde verschil |Da| van alle spelers is ongeveer gelijk aan Da = 61 ratingpunten. De daarbij behorende winstkans is P(Da) = 58%. Aannemende dat de score binomiaal verdeeld is, dan is de variantie gelijk aan 15 × 58% × (100% - 58%) = 3,56. De standaard afwijking σ = 1,91 is de wortel hieruit. De waarschijnlijke fout (PE) is gelijk aan 0,6745 * 1,91 = 1,29. Elo schat de PE op 1,27 op basis van het ratingverschil tussen Portisch en Popov. Statistisch verwachten we 8 verschillen |W - We| groter dan de waarschijnlijke fout. In werkelijkheid is dit aantal maar 5. We mogen verwachten dat 16 × 68% = 5 uitslagen buiten de standaard afwijking vallen, maar dit aantal beperkt zich tot 2. Alle uitslagen vallen binnen 2 × σ. Hieruit concludeert Elo dat de scores van het toernooi ruim binnen de statistische toleranties vallen.

De werkwijze bevat een aantal vereenvoudigingen. Er wordt geen rekening gehouden met de onderlinge afhankelijkheden in de uitslagen. De verwachte score We en de standaard afwijking σ worden bepaald op basis van gemiddelden, in plaats van individuele wedstrijden.

In de beschouwing wordt uitgegaan van een binomiale verdeling, uitsluitend winst (1) en verlies (0) komen voor. In de schaakpraktijk is remise (½) geen uitzondering. Daardoor wordt de verdeling[11] vlakker. De binomiale variantie van een partij tussen even sterke spelers is per definitie gelijk aan: μ = (0 + 1)/2, en σ2 = (1 - μ)2/2 + (0 - μ)2/2 = 1/4. Inclusief remise wordt dit: μ = (0 + ½ + 1)/3, en σ2 = (1 - μ)2/3 + (½ - μ)2/3 + (0 - μ)2/3 = 1/6. Dit is een factor 2/3 kleiner.

Externe links[bewerken]

Bronnen, noten en/of referenties
  1. Elo, Arpad E., The Rating of Chessplayers, Past&Present, ISHI Press International, Bronx NY 10453 [1978], 2008 ISBN 978-0-923891-27-5.
  2. a b FIDE Rating Regulations (Qualification Commission). Handbook, B. Permanent Commissions, 01. International Title Regulations (Qualification Commission), 1.48 Performance Rating (Rp). World Chess Federation (FIDE) Geraadpleegd op 2014-04-25
  3. Annex 9 FMJD rating system and its application rules. Annex 9 FMJD rating system. FMJD Geraadpleegd op 2014-04-25
  4. Rekenregels KNSB Ratings (pdf). 9.1 Lijstprestatierating (LPR). Koninklijke Nederlandse Schaakbond Geraadpleegd op 2014-04-25
  5. Elo, Arpad E., The Rating of Chessplayers, Past&Present, ISHI Press International, Bronx NY 10453 [1978], 2008, “3.42 The method of Successive Approximations” ISBN 978-0-923891-27-5.
  6. Thurstone Louis L., A law of comparative judgement, Psychological Review 34 (1927) 273-286
  7. E. Zermelo, Die Berechnung der Turnier-Ergebnisse als ein Maximumproblem der Wahrscheinlichkeitsrechnung, Mathematische Zeitschrift 29 (1929) 436–460
  8. Glickman, Mark E. Introductory note to 1928 Geraadpleegd op 17-2-2015
  9. Iteratie van Newton-Raphson in meer dimensies
  10. Elo, Arpad E., The Rating of Chessplayers, Past&Present, ISHI Press International, Bronx NY 10453 [1978], 2008, “3.42 The Reliability of the Ratings” ISBN 978-0-923891-27-5.
  11. K. Balasubramanian, R. Viperos & N. Balakrishnan, Some discrete distributions related to extended Pascal Triangles, Fibonacci Quart. 33(5) (1995) 415–425. (p. 419)