ROC-curve
In de signaaldetectietheorie is een ROC-curve (Engels: receiver operating characteristic (ROC)) een grafiek van de gevoeligheid (sensitiviteit) in functie van de aspecificiteit (1 - specificiteit) voor een binaire classifier als zijn discriminatiedrempel wordt gevarieerd. De ROC kan ook worden weergegeven door de fractie van true positives (TPR = true positive rate) uit te zetten tegen de fractie van fout-positieven (FPR = false positive rate). De ROC-curve staat ook bekend als de Relative Operating Characteristic curve, omdat twee operating characteristics (TPR & FPR) worden vergeleken terwijl het criterium (de drempel) verandert. [1]
Met ROC-analyse kunnen optimale modellen worden uitgekozen en minder goede verworpen onafhankelijk van de kosten of de klasseverdeling. ROC-analyse kan gebruikt worden voor kosten/baten-analyse bij diagnostische besliskunde. De ROC-curve werd oorspronkelijk ontwikkeld door elektrotechnici en radartechnici in de Tweede Wereldoorlog om vijandelijke objecten te onderscheiden. Het vakgebied heet ook wel signaaldetectietheorie. Tegenwoordig wordt ROC-analyse al tientallen jaren toegepast in de geneeskunde, radiologie, psychologie en andere gebieden. Sinds kort wordt het ook gebruikt bij machine learning en data mining.
Terminologie en afleidingen [bewerken]
In een voorspellingsprobleem met twee klassen (binaire klassificatie) zijn de uitslagen positief (p) of negatief (n). Een binaire classifier geeft vier resultaten. Als de uitslag p en de echte waarde is ook p, hebben we een echt-positief (true positive, TP). Maar als de echte waarde n is hebben we een fout-positief (false positive, FP). Omgekeerd is een echt-negatief (true negative, TN) als zowel de uitslag als de echte waarde n zijn en een fout-negatief (false negative, FN) als de uitslag n maar de echte waarde p is.
| Naam | Verklaring | Formule | |||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Echt-positief (true positive, TP) | treffer | ![]() |
|||||||||||||||||||||||
| Echt-negatief (true negative, TN) | terechte verwerping | ![]() |
|||||||||||||||||||||||
| Fout-positief (false positive, FP) | vals alarm, Type I fout | ![]() |
|||||||||||||||||||||||
| Fout-negatief (false negative, FN) | gemist geval, Type II fout | ![]() |
|||||||||||||||||||||||
| Totaal positieve uitslagen P | som van echt-positieve en vals-negatieve uitslagen | ![]() |
|||||||||||||||||||||||
| Totaal negatieve uitslagen N | som van echt-negatieve en vals-positieve uitslagen | ![]() |
|||||||||||||||||||||||
| True positive rate (TPR) | trefkans, recall, sensitiviteit | ![]() |
|||||||||||||||||||||||
| False positive rate (FPR) | gelijk aan kans op vals alarm, fall-out | ![]() |
|||||||||||||||||||||||
| Nauwkeurigheid (ACC) | aandeel juiste uitslagen | ![]() |
|||||||||||||||||||||||
| Specificiteit (SPC) of True Negative Rate | ![]() |
||||||||||||||||||||||||
| Positive predictive value (PPV) | gelijk aan precisie | ![]() |
|||||||||||||||||||||||
| Negative predictive value (NPV) | kans op echt-negatieve uitslag | ![]() |
|||||||||||||||||||||||
| False discovery rate (FDR) | kans op vals alarm | ![]() |
|||||||||||||||||||||||
| Matthews correlatie coefficient (MCC)[2] |
Voorbeeld [bewerken]Als voorbeeld nemen we een medische test om te bepalen of iemand een bepaalde ziekte heeft. Een fout-positief is als de test positief uitvalt, maar de persoon niet ziek is. Een fout-negatief doet zich voor als de persoon een negatieve uitslag krijgt, terwijl de ziekte toch aanwezig is. We bekijken een proef met P positieve en N negatieve gevallen. De vier uitkomsten kunnen in een 2×2 contingency table of confusion matrix, weergegeven worden:
Zie ook [bewerken]
|
||||||||||||||||||||||||












