Naar inhoud springen

ROC-curve

Uit Wikipedia, de vrije encyclopedie
Dit is een oude versie van deze pagina, bewerkt door Arent (overleg | bijdragen) op 10 apr 2020 om 09:13.
Deze versie kan sterk verschillen van de huidige versie van deze pagina.
Voorbeeld van een ROC-curve.
Voorbeeld van een ROC-curve

In de signaaldetectietheorie is een ROC-curve (Engels: receiver operating characteristic (ROC)) een grafiek van de gevoeligheid (sensitiviteit) als functie van de aspecificiteit (1 - specificiteit) voor een binaire classifier als zijn discriminatiedrempel wordt gevarieerd. De ROC kan ook worden weergegeven door de fractie van true positives (TPR = true positive rate) uit te zetten tegen de fractie van fout-positieven (FPR = false positive rate). De ROC-curve staat ook bekend als de relative operating characteristic curve, omdat twee operating characteristics (TPR en FPR) met elkaar worden vergeleken terwijl het criterium (de drempel) verandert.[1][2]

ROC-analyse kan gebruikt worden voor kosten-batenanalyse bij diagnostische besliskunde. Met ROC-analyse kunnen optimale modellen worden uitgekozen en minder goede verworpen. De ROC-curve werd oorspronkelijk ontwikkeld door elektrotechnici en radartechnici in de Tweede Wereldoorlog om vijandelijke objecten te onderscheiden. Het vakgebied heet ook wel signaaldetectietheorie. Tegenwoordig wordt ROC-analyse al tientallen jaren toegepast in de geneeskunde, radiologie, psychologie en andere gebieden. Sinds kort wordt het ook gebruikt bij machinaal leren en datamining.

Terminologie en afleidingen

In een voorspellingsprobleem met twee klassen (binaire klassificatie) zijn de uitslagen positief (p) of negatief (n). Een binaire classifier geeft vier resultaten. Als de uitslag p en de echte waarde is ook p, hebben we een echt-positief (true positive, TP). Maar als de echte waarde n is hebben we een fout-positief (false positive, FP). Omgekeerd is een echt-negatief (true negative, TN) als zowel de uitslag als de echte waarde n zijn en een fout-negatief (false negative, FN) als de uitslag n maar de echte waarde p is.

Naam Verklaring Formule
Echt-positief (true positive, TP) treffer
Echt-negatief (true negative, TN) terechte verwerping
Fout-positief (false positive, FP) vals alarm, type I-fout
Fout-negatief (false negative, FN) gemist geval, type II-fout
Totaal positieve uitslagen P som van echt-positieve en fout-negatieve uitslagen
Totaal negatieve uitslagen N som van echt-negatieve en fout-positieve uitslagen
True positive rate (TPR) trefkans, recall, sensitiviteit
False positive rate (FPR) gelijk aan kans op vals alarm, fall-out
Nauwkeurigheid (ACC) aandeel juiste uitslagen
Specificiteit (SPC) of True Negative Rate
Positive predictive value (PPV) gelijk aan precisie
Negative predictive value (NPV) kans op echt-negatieve uitslag
False discovery rate (FDR) kans op vals alarm
Matthews correlatie coefficient (MCC)[3]

Voorbeeld

Als voorbeeld nemen we een medische test om te bepalen of iemand een bepaalde ziekte heeft. Een fout-positief is als de test positief uitvalt (dus patiënt heeft de ziekte volgens de test), maar de persoon in het echt niet ziek is. Een fout-negatief doet zich voor als iemand een negatieve uitslag krijgt, terwijl de ziekte toch aanwezig is.

We bekijken een proef met P positieve en N negatieve gevallen. De vier uitkomsten kunnen in een 2×2 contingency table of confusion matrix, weergegeven worden:

  echte waarde
  p n totaal
Voorspelling
resultaat
p' True
Positive
False
Positive
P'
n' False
Negative
True
Negative
N'
total P N

Zie ook