Logistische regressie

In de statistiek wordt logistische regressie gebruikt om een dichotome uitkomstvariabele te relateren aan een of meer variabelen. Logistische regressieanalyse kan gezien worden als de techniek die het meest bij lineaire regressie aansluit, en is hierbij tevens het alternatief voor lineaire regressie in het geval de gemeten variabele niet continu van aard is (metrisch of ratiomeetniveau).

De analysetechniek heeft vaak een voorspellend karakter en wordt voornamelijk toegepast binnen de vakgebieden gezondheidswetenschappen, biologie, macro-economie, financiële economie, sociologie en de sociale psychologie.

Basisprincipe[bewerken | brontekst bewerken]

Logistische regressie werkt met kansverhoudingen. De kansverhouding, die meestal met het Engelse woord “odds” wordt aangeduid, is de verhouding tussen de fracties bij twee mogelijke uitkomsten. Als $p$ de kans op de ene uitkomst is, dan is $1-p$ de kans op de tweede uitkomst, en de odds voor de ene uitkomst: $p:(1-p)$ . De odds kan opgevat worden als een continue variabele die loopt van 0 tot oneindig.

Het principiële idee is de uitkomstvariabele dusdanig te modificeren dat lineaire regressie mogelijk is. De onafhankelijke variabelen in het model worden omgezet in kansverhoudingen ofwel oddsratio's. De verdeling is bij benadering logistisch. De onafhankelijke variabelen beïnvloeden de odds, echter in een niet lineair verband (zie logistische verdeling).

In tegenstelling tot bij lineaire regressie gelden bij logistische regressie niet al te veel statistische voorwaarden. Zo hoeven er bijvoorbeeld geen aannames te worden gedaan over de verdeling van de uitkomstvariabele. De voorspellers (of verklarende variabelen) kunnen (net als bij lineaire regressie) zowel discreet als continu zijn

Toepassing[bewerken | brontekst bewerken]

Enkele mogelijke situaties waarbij het logistisch regressiemodel kan worden toegepast zijn:

Kan men aan de hand van de variabelen leeftijd, opleidingsniveau en geslacht voorspellen of een kiezer in de Verenigde Staten voor de republikeinse of democratische partij zal kiezen?
Wat is het verband tussen de dosis van een insecticide en het al dan niet gedood worden van een insect?
In hoeverre voorspelt het geslacht van een student het antwoord op de vraag of hij of zij een stevige drinker is?
Geeft hoge bloeddruk een grotere kans op overlijden aan hart- en vaatziekten?

Logistisch regressiemodel[bewerken | brontekst bewerken]

De odd loopt van 0 tot oneindig, waarden onder de 0 zijn niet mogelijk. Als uitkomstvariabele wordt daarom niet de odds gebruikt, maar de natuurlijke logaritme van de odds. Deze ln(odds), ook wel logit genoemd kan alle waarden tussen min oneindig en oneindig aannemen.

Wiskundig kan logistische regressie formeel worden benaderd:

f(y_{i})=\ln {\frac {P(y_{i})}{1-P(y_{i})}}=\beta _{0}+\beta _{1}x_{i1}+\ldots +\beta _{n}x_{ik}

Hierbij zijn $x_{i1},\ldots ,x_{ik}$ de onafhankelijke variabelen, is $\beta _{0}$ de constante en zijn $\beta _{1},\ldots ,\beta _{n}$ de logistische regressiecoëfficiënten. In dit geval zijn de logistische regressiecoëfficiënten de parameters die het effect van de onafhankelijke variabele aangeven.

Toetsen[bewerken | brontekst bewerken]

Bij logistische regressieanalyse worden verschillende toetsen toegepast of het model daadwerkelijk nuttig kan zijn, deze toetsen vallen onder de Engelse verzamelnaam "goodness of fit".

Likelihoodratiotoets[bewerken | brontekst bewerken]

Deze maat wordt gemeten door de "likelihood ratio" "(letterlijk aannemelijkheidsratio) waarbij het initiële model het nul-model is en het predictieve model het alternatieve model is. De toets gebruikt de chi-kwadraattoets voor de uiting van de verschillen. De maat kan worden aangegeven met de Griekse letter lambda Λ.

Wiskundig kan de likelihoodratiotoets formeel worden benaderd:

B=\chi ^{2}=-2\ln {\frac {LR_{\mathrm {nul} }}{LR_{\mathrm {predictief} }}}

Daarbij is ln de logaritme.

Waldtoets[bewerken | brontekst bewerken]

Een parametrische toets vernoemd naar de Hongaarse statisticus Abraham Wald. Wanneer er een onderlinge relatie bestaat tussen verschillende onderdelen van een data model met gebruikte parameters, kan men deze toetsen met een steekproef. De waldtoets kan gebruikt worden om de werkelijke waarden van de parameter te benaderen, op het in de steekproef behaalde resultaat.

Wiskundig kan deze toets formeel benaderd worden:

\mathrm {H} _{0}:\left({\frac {B}{S.E.}}\right)^{2}=r

\mathrm {H} _{1}:\left({\frac {B}{S.E.}}\right)^{2}\neq r

Waarbij B de verwachte waarde van de kans is en S.E. de standaardfout.

Omnibustoets[bewerken | brontekst bewerken]

De toets schat de aannemelijkheidsratio, (of likelihood ratio) van het model met een chi-kwadraattoets. Hierbij wordt gekeken of de parameters gelijke eigenschappen vertonen, en of meerdere variabelen het model daadwerkelijk verbeteren. Dit wordt gedaan door de aannemelijkheidsratio van het predictieve model te vergelijken met de aannemelijkheidsratio van het nul-model ofwel het model met enkel de constante.

De omnibustoets toetst de hypothese:

H₀: β₁ = β₂ = ... = β_k = 0

H₁ : waarbij minstens een paar β_j ≠ β_j'

In het geval dat de omnibustoets niet significant is en indien het alternatieve model geen verbetering toont, heeft het geen nut om het model toe te passen en wordt het niet als nuttig beschouwd.

Pseudo-R-kwadraat van Cox-Snell[bewerken | brontekst bewerken]

De toets die ontwikkeld is door statistici David Cox en Joyce E. Snell. De aannemelijkheid van het nul model wordt vergeleken met de aannemelijkheid van het alternatieve model. De mogelijkheid van de afhankelijke variabele gezien de onafhankelijke variabelen. Als er n observaties in de dataset zijn dan is de kans het product van al die observaties. Door de nde wortel uit het product te halen kan dus de aannemelijkheidsratio berekend worden.

Wiskundig kan de toets van Cox-Snell formeel worden benaderd:

{\mathcal {R^{2}}}=1-\left({\frac {-2LR_{\mathrm {nul} }}{-2LR_{\mathrm {predictief} }}}\right)^{-{\tfrac {2}{n}}}

In een model waarbij de aannemelijkheid perfect voorspeld wordt zal de uitkomst kleiner worden. De uitkomst wordt gepresenteerd als 1 – (ratio). Om deze reden kan de uitkomst van deze toets nooit de 1 bereiken.

R-kwadraat van Nagelkerke[bewerken | brontekst bewerken]

De aangepaste versie van de toets van Cox-Snell. In deze toets kan de uitkomst de waarde van 1 aannemen. In het geval waarbij een model de aannemelijkheid perfect voorspelt, zal de waarde van 1 getoond worden. Dit wordt gedaan door de formule van de toets van Cox- Snell te delen door de natuurlijke logaritme van het nul-model. Op deze manier kan er uiteindelijk een waarde van 1 ontstaan.

Wiskundig kan de R-kwadraattoets van Nagelkerke formeel worden benaderd:

{\mathcal {R^{2}}}={\frac {1-\left({\frac {-2LR_{\mathrm {nul} }}{-2LR_{\mathrm {predictief} }}}\right)^{-2/n}}{1-(-2LR_{\mathrm {nul} })^{-2/n}}}

Logischerwijs kan men zeggen dat het predictieve model plausibeler is bij benadering de waarde 1.

Toets van Hosmer-Lemeshow[bewerken | brontekst bewerken]

Een relatief moderne toets die voornamelijk wordt gebruikt in modellen met het doel het in kaart te brengen van een of meerdere risico’s. Bij de toets van Hosmer-Lemeshow worden de data opgedeeld in decielen op basis van gepast aannemelijkheidsratio van laag naar hoog. Vervolgens wordt op elk deciel een chi-kwadraattoets uitgevoerd waarbij de verwachte waarde wordt vergeleken met de reële waarde.

Dit model wordt overigens door sommige statistici als niet plausibel beschouwd omdat zeer grote of zeer kleine gegevensbestanden type I- of type II-fouten in de hand zouden kunnen werken.

Wiskundig kan de toets van Hosmer–Lemeshow formeel benaderd worden:

H=\sum _{g=1}^{G}{\frac {(O_{1g}-E_{1g})^{2}}{E_{1g}}}+{\frac {(O_{0g}-E_{0g})^{2}}{E_{0g}}}=\sum _{g=1}^{G}{\frac {(O_{1g}-E_{1g})^{2}}{N_{g}\pi _{g}}}+{\frac {(N_{g}-O_{1g}-(N_{g}-E_{1g}))^{2}}{N_{g}(1-\pi _{g})}}=\sum _{g=1}^{G}{\frac {(O_{1g}-E_{1g})^{2}}{N_{g}\pi _{g}(1-\pi _{g})}}

.

Selectieprocedures onafhankelijke variabelen in model[bewerken | brontekst bewerken]

Er zijn twee manieren om de onafhankelijke variabelen in het model te selecteren. De eerste manier is door vooraf op basis van theoretische literatuur logisch te redeneren welke variabelen mogelijk invloed zouden kunnen hebben op de afhankelijke variabele. Dit is een deductieve methode. Bij deze methode is het doel verklaren. Men selecteert de onafhankelijke variabele op basis van de theoretische verwachtingen. Het is bij deze methode minder relevant of het een optimaal voorspellend model is, men wil alleen kijken wat de impact is van de onafhankelijke variabelen waarvan men op basis van de theorie verwacht dat zij van invloed zijn op de afhankelijke variabele. Bij deze methode is het belangrijk om covariabelen mee te nemen in het model, naast de controlevariabelen.

Een tweede manier is een inductieve manier waarbij men het softwareprogramma SPSS uit laat rekenen welke variabelen samen het best de variantie in de afhankelijke variabele voorspellen. Dit is een inductieve methode. Bij deze methode is het doel een optimaal voorspellend model creëren waarmee men op basis van variantie in de onafhankelijke variabelen goed kan voorspellen of de afhankelijke variabele wel of niet plaatsvindt. Voor de inductieve methode met als doel voorspellen is het vereist dat men een ROC-curve weergeeft in het onderzoek, is het doel verklaren dan hoeft dit niet.

Het softwareprogramma SPSS biedt voor deze tweede methode verschillende stapmethoden of selectieprocedures. Dit zijn in werkelijkheid een reeks gesimuleerde testen die herhaald worden om de geschiktheid van het model te optimaliseren.

Voorwaartse methode[bewerken | brontekst bewerken]

De selectieprocedure start met een model zonder predictoren, vervolgens worden bij elke stap onafhankelijke variabelen toegevoegd om te kijken of het model wordt verbeterd. Wanneer er geen verbetering meer plaatsvindt, stopt de procedure.

Achterwaartse methode[bewerken | brontekst bewerken]

Het model begint de simulatie op basis van de aannemelijkheidsratio met alle mogelijke predictoren. Vervolgens worden predictoren verwijderd opdat het optimum ontstaat en de meest effectieve informatie overblijft.

Criteria bij de selectieprocedures kunnen worden gebaseerd op de waardes van de aannemelijkheidsratio (LR) of de waldtoets.

Collineariteit[bewerken | brontekst bewerken]

Wanneer de onafhankelijke variabelen sterk samenhangen, kunnen er foutieve resultaten ontstaan. Binnen de logistische regressie analyse worden geen opties gevonden collineariteit vast te stellen. Bij vermoeden van collineariteit wordt dan ook aangeraden analyse van meervoudige correlatie toe te passen en dan de multicollineariteitsstatistieken op te vragen. Men doet dan dus net alsof men de variabelen van de logistische regressie in een meervoudige correlatie kan toetsen.

Zie ook[bewerken | brontekst bewerken]

Bronnen

Logistische Regressie, McCabe M.
Het adequate gebruik van Multivariabele Logistische Regressie Analyse in de Intensieve Zorg literatuur. Lambrecht, P; Verslype, P. (2009)
Logistische regressie
Inleiding in de toegepaste biostatistiek van J.W.R Twisk, Elsevier gezondheidszorg, Maarssen (2007)
"Logistische regressie met SPSS". Siebe, I; Linssen, L.
David W. Hosmer & Stanley Lemeshow (1989). Applied Logistic Regression. New York: Wiley
More on Model Fit and Significance of Predictors with Logistic Regression" Newsom, Data analysis II, 2005