Robuuste regressie

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Robuuste regressie is een statistische procedure die er op gericht is regressies uit te kunnen voeren wanneer de data set vervuild is met enige punten die niet tot een (multivariate) normale verdeling rond het model behoren.

De Achilles-hiel van de kleinste-kwadratenmethode ofwel Least Squares (LS)[bewerken]

De meeste regressiemodellen zijn gebaseerd op de minimalisering van de som van de kwadraten van de residuen die achterblijven wanneer het model (de fit) afgetrokken wordt van de data. Men zou kunnen zeggen dat men in LS-regressie zoekt naar die waarden van de parameters van het model die de som van de kwadraten minimaliseert:

βLS = arg(min(Σδ2i))

We kunnen ook delen door n het aantal data punten in onze steekproef:

βLS = arg(min(Σδ2i)/n)
βLS = arg(min(avg(δ2i))

We zoeken dus naar het argument van het minimum van de gemiddelde variantie van de residuen.

Er bestaat een goede analytische oplossing van dit probleem, de regressieformule:

βLS =(X'X)-1X'Y

Waarbij Y een matrix voorstelt die alle meetwaarden bevat en X een matrix met alle ingestelde waarden (de onafhankelijke variabelen)

Het probleem is dat deze formule alleen accurate oplossingen levert als er geen enkele grove fout in de dataset zit. Dit kan men goed inzien bij het simpelste LS-model: een gemiddeldeberekening. Als we eenzelfde grootheid driemaal meten en de resulterende getallen 6,1 6,3 en 6,2 rekenkundig middelen levert dit 6,2 en dit is een goede schatting voor het centrum van de distributie van de grootheid. Als we echter per ongeluk 61 zouden intypen in plaats van 6,1 krijgen we een volledig verkeerde schatting. Dit geldt zowel voor het centrum als voor de spreiding.

Een manier om dit effect te voorkomen is om niet het gemiddelde te nemen maar de mediaan. Deze is veel minder gevoelig voor uitbijters.

Uitbijters in regressies[bewerken]

In regressies zijn de uitbijters nog desastreuzer dan in simpele gemiddelden, vooral als zij in meerdere dimensies uitgevoerd worden. Het is dan alleen mogelijk om de dataset in projectie grafisch weer te geven en wat in meerdere dimensies een uitbijter is kan er in projectie heel onschuldig uitzien. Er is daarom behoefte aan een methode die de uitbijters identificeert.

In hun boek Robust regression and outlier detection hebben twee Vlaamse onderzoekers Peter J. Rousseeuw en Annick M. Leroy daar wat op gevonden. Zij nemen de uitdrukking

βLS = arg(min(avg2i))

en vervangen het gemiddelde (avg) door een mediaan (med):

βRobust = arg(min(med2i))

Helaas is het niet mogelijk om voor dit probleem een analytische oplossing te formuleren, maar voor moderne computers is dat niet zo'n probleem omdat men een dergelijk vraagstuk ook met een algoritme te lijf kan.

Voor een simpele rechte ziet het algoritme er als volgt uit

  • neem twee punten uit de set
  • construeer een rechte door de twee punten
  • bereken de residuen δ, of liever hun kwadraat
  • neem de mediaan van δ2
  • herhaal de procedure voor alle (of althans voor een voldoend aantal) puntcombinaties
  • bepaal de lijn met de laagste mediaan

Deze lijn is niet de exacte oplossing van het vraagstuk omdat alleen lijnen door twee punten in beschouwing genomen zijn, maar de lijn is voldoende goed om de uitbijters te identificeren. De wortel uit de minimale mediane variatie is een goede en robuuste maat voor de stadaarddeviatie van de 'goede' punten rond de lijn wanneer deze vermenigvuldigd wordt met de factor 1.485.

Hierna worden alle residuen door deze maat voor de spreiding gedeeld en onderworpen aan een t-toest. Op deze manier kunnen de uitbijters verwijderd worden. Vervolgens wordt op de overblijvende 'schone' set een 'gewone' LS-regressie uitgevoerd, omdat LS-schattingen het meest efficiënt gebruikmaken van de informatie inhoud van de set.

In zijn geheel staat deze procedure bekend als Reweighted Least Squares (RLS) ofwel Herwogen Kleinste Kwadraten.

Referentie[bewerken]

Peter J. Rousseuw, Annick M. Leroy Robust Regression and Outlier Detection 1987 Wiley series in probability and mathematical statistics ISBN 0-471-85233-3

Zie ook[bewerken]