Jul, 2024

克服选择性分类系统评估中的常见缺陷

TL;DR选择性分类方法可以在低置信度预测时拒绝,可靠地将基于机器学习的分类系统应用于临床诊断等实际场景。本研究定义了多阈值评估度量在选择性分类中的 5 个要求,涉及任务对齐、可解释性和灵活性,并展示了当前方法未能满足这些要求。我们提出了广义风险覆盖曲线下的面积(AUGRC),该曲线满足所有要求,并可直接解释为未检测到故障的平均风险。通过综合评估 6 个数据集和 13 个置信度评分函数的广泛基准,我们在实证上证明了 AUGRC 的相关性。我们发现,在这 6 个数据集中,所提出的度量方法显著改变了度量排名中的 5 个数据集。