Aug, 2023

存在类条件标签噪声的欺诈检测中的 FPR 估计

TL;DR在存在有错误标签(标签噪声)的验证集的情况下,我们考虑对二分类模型的伪阳性率(FPR)和真阳性率(TPR)进行估计的问题。我们的动机应用是防欺诈,其中准确估计 FPR 对于保护好顾客的经验至关重要,并且标签噪声是高度不对称的。现有方法旨在最小化清理过程中的总误差 - 以避免清理非噪声的示例,并确保清理噪声示例。这是一个重要的准确性度量,但不足以确保模型的真实 FPR 或 TPR 的良好估计,我们证明了即使总误差较低,使用模型直接清理其自身的验证数据也会导致低估。这表明研究人员需要追求不仅降低总误差,而且寻求将清理误差与模型评分去相关化的方法。