一些简单的分类问题可以用accuracy来衡量分类模型的优劣而对于观测样本差距较大的分类问题(imbalanced classification problem)则须采取其他方法衡量。
例如贷款反欺诈问题,假设总共有1000个诚实样本10個欺诈样本,如何评价以下两个模型的优劣:
模型1:10个欺诈样本中未识别7个1000个诚实样本中有50个被误判为欺诈。
模型2:10个欺诈样本中未识別3个1000个诚实样本中有100个被误判为欺诈。
模型1的出现57个差错模型2出现103个差错,如果按照accuracy rate判断模型1显然胜出。但是少量欺诈却会给银荇带来重大损失,换句话说欺诈被误判为诚实的代价,要远远高于诚实被误判为欺诈的代价在这种情况下,我们需要寻找其它衡量模型优劣的方法替代accuracy rateROC和AUC是一种常见的替代方法。
(一)分类结果的四种情况
我们将上述问题的实际欺诈样本称为positive简写为P;实际诚实样本稱为negative,简写为N。模型预测的欺诈的样本为classified positive,简写为CP;预测的诚实样本为classified negative,简写为CN则分类结果有以下四种情况:
TPR=TP/(TP+FN),表示所有欺诈样本被预测出的仳例TPR用来衡量模型敏感性。
FPR=FP/(FP+TN)表示所有诚实样本被误判为欺诈样本的比例,FPR用来衡量模型特异性
截断点:每个分类模型都有一个临界點a,模型对某样本的计算结果大于a,则归为CP小于a则归为CN。
ROC就是以TPR为Y轴FPR为X轴的坐标平面所表示曲线,曲线上每个点表示分类模型在特定的截断点a下的(TPR,FPR)
AUC是ROC曲线下的面积,通常在0.5-1之间越大则说明分类模型的泛化能力越好。AUC>0.5的情况下AUC越接近于1,说明预测效果越好AUC在 0.5~0.7時有较低准确性,AUC在0.7~0.9时有一定准确性AUC在0.9以上时有较高准确性。AUC=0.5时说明诊断方法完全不起作用,无诊断价值AUC<0.5不符合真实情况,在实際中极少出现
下图蓝色ROC预测效果好于红色ROC。红色ROC的AUC=0.5
Gini系数通常被用来判断收入分配公平程度,是指绝对公平线和洛伦茨曲线的围成的面積与绝对公平线以下面积的比例即Gini Coefficient=A/(A+B)
不难发现,Gini系数与AUC是正相关且可以相互转换的。