Robuuste regressie

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken

Robuuste regressie(-analyse) is een statistische procedure die er op gericht is een regressie-analyse uit te kunnen voeren als de dataset vervuild is met enige punten die niet tot een (multivariate) normale verdeling behoren.

De achilleshiel van de kleinste-kwadratenmethode[bewerken]

Een lineaire-regressie-analyse wordt meestal uitgevoerd met de kleinste-kwadratenmethode. Een probleem daarbij is dat de oplossing gevoelig is voor fouten en afwijkingen in de data. Bij een regressie-analyse in meerdere dimensies zal een uitbijter soms door de gebruikte projectie bij grafische inspectie er heel onschuldig uitzien. Er is daarom behoefte aan een methode die de uitbijters identificeert en neutraliseert.

Robuuste methode[bewerken]

Een bekende schatting van een verwachtingswaarde is het steekproefgemiddelde, dat tamelijk gevoelig is voor uitbijters. Ter vermijding van dit probleem neemt men als robuuste schatting de mediaan van de steekproef. Een of meer uitbijters tellen eenvoudig niet mee in de mediaan.

In hun boek Robust regression and outlier detection hebben twee Vlaamse onderzoekers Peter J. Rousseeuw en Annick M. Leroy dit idee ook toegepast bij regressie-analyse.

Voor het lineaire regressiemodel

Y_i=\alpha x_i + \beta + \varepsilon_i

worden schattingen a en b van repectievelijk \alpha en \beta met de kleinste-kwadratenmethode bepaald als oplossingen van het minimaliseringsprobleem:

\sum\left(Y_i-(a x_i + b)\right)^2 minimaal.

In plaats van het minimaliseren van de som, minimaliseren de genoemde auteurs de mediaan. De robuuste schattingen a_R en b_R zijn de oplossingen van van het minimaliseringsprobleem:

\mathrm{med}\left(Y_i-(a_R x_i + b_R)\right)^2 minimaal.

Weliswaar is het niet mogelijk om voor dit probleem een analytische oplossing te formuleren, maar voor moderne computers is dat niet zo'n probleem, omdat men een dergelijk vraagstuk ook met een iteratief algoritme te lijf kan gaan.

Voor een eenvoudige rechte ziet het algoritme er als volgt uit

  • neem twee punten uit de set
  • construeer een rechte door de twee punten
  • bereken het kwadraat van de residuen \delta_i=Y_i-(a_R x_i + b_R)
  • bepaal de mediaan van deze kwadraten
  • herhaal de procedure voor alle (of althans voor een voldoend aantal) puntencombinaties
  • de lijn met de kleinste mediaan is de robuuste oplossing

Deze lijn is niet de exacte oplossing van het vraagstuk, omdat alleen lijnen door twee punten in beschouwing genomen zijn, maar de lijn voldoet om de uitbijters te identificeren. De wortel uit de minimale mediane variatie is een goede en robuuste maat voor de stadaarddeviatie van de 'goede' punten rond de lijn als deze vermenigvuldigd wordt met de factor 1,485.

Hierna worden alle residuen door deze maat voor de spreiding gedeeld en onderworpen aan een t-toets. Op deze manier kunnen de uitbijters verwijderd worden. Vervolgens wordt op de overblijvende 'schone' set een 'gewone' regressie-analyse uitgevoerd.

In zijn geheel staat deze procedure bekend als Reweighted Least Squares (RLS).

Referentie[bewerken]

Peter J. Rousseuw, Annick M. Leroy Robust Regression and Outlier Detection 1987 Wiley series in probability and mathematical statistics ISBN 0-471-85233-3

Zie ook[bewerken]