克服选择性分类系统评估中的常见缺陷

Jul, 2024

克服选择性分类系统评估中的常见缺陷

Overcoming Common Flaws in the Evaluation of Selective Classification Systems

Jeremias Traub, Till J. Bungert, Carsten T. Lüth, Michael Baumgartner, Klaus H. Maier-Hein...

TL;DR选择性分类方法可以在低置信度预测时拒绝，可靠地将基于机器学习的分类系统应用于临床诊断等实际场景。本研究定义了多阈值评估度量在选择性分类中的 5 个要求，涉及任务对齐、可解释性和灵活性，并展示了当前方法未能满足这些要求。我们提出了广义风险覆盖曲线下的面积（AUGRC），该曲线满足所有要求，并可直接解释为未检测到故障的平均风险。通过综合评估 6 个数据集和 13 个置信度评分函数的广泛基准，我们在实证上证明了 AUGRC 的相关性。我们发现，在这 6 个数据集中，所提出的度量方法显著改变了度量排名中的 5 个数据集。

Abstract

selective classification, wherein models can reject low-confidence predictions, promises reliable translation of machine-learning based classification systems to real-world scenarios such as →

selective classification machine-learning clinical diagnostics multi-threshold metrics area under the generalized risk coverage curve

发现论文，激发创造

基于 AUC 的选择性分类

本文提出了一种模型不可知的方法，将一个选择函数与给定的概率二元分类器相关联，以最优化 AUC，并且通过使用 AUCROSS 算法来取得成功，从而在交换覆盖率和 AUC 之间达到最佳平衡。

Oct, 2022

测试集 AUROC 的奇特案例

ML 模型的尺寸和复杂性在过去十年中迅速增长，但评估其性能的方法未能跟上步伐。然而，我们认为仅考虑来自测试 ROC 曲线的得分只能对模型的性能和泛化能力提供有限的见解。

Dec, 2023

带有可证收敛性的精确度 - 召回曲线下面积的随机优化

本文提出一种基于 AUPRC pipeline 的技术方法，采用 SOAP 采样算法来提高分类性能，并利用最新的随机组合优化技术进行优化。该方法在图像和图形数据集上的实验结果表明，在 AUPRC 方面，我们的方法优于先前的方法。这是首次尝试通过证明收敛性来优化 AUPRC。

Apr, 2021

研究 AUC 指标的失效模式并探索安全关键应用系统评估的替代方法

本研究提出了三个度量指标来解决现有度量指标在选择性回答方面存在的局限性，实验结果表明，性能更好的选择性回答模型并不一定是较新或较大的预训练模型。这些发现有望促进针对安全关键应用的更好模型的发展。

Oct, 2022

深入研究类别不平衡下的 AUROC 和 AUPRC

通过新颖的数学分析，本文挑战并证明按照概率的观点，AUPRC（精确率 - 召回率曲线下的面积）和 AUROC（接收者操作特征曲线下的面积）可以简洁地相互关联。同时，通过对超过 150 万篇论文的大规模语言模型分析，揭示了 AUPRC 被广泛接受的先入为主观念的实证不足和误导趋势，强调了对度量标准性能的深入理解的重要性和机器学习社区中未经证实的假设的危险性。

Jan, 2024

用精确度 - 召回率曲线下面积进行聚类验证

本论文探讨了在聚类验证中，利用混淆矩阵和派生度量来衡量模型性能表现的可行性，并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法，通过实验验证，这一方法的可靠性与其在有监督学习中的表现相一致。

Apr, 2023

评估 ODD 性能的超出 AUROC 等指标

岂止是用二分类任务来衡量 out-of-distribution detection 的性能，并且几乎没有考虑到检测阈值的影响，因此我们提出了一个新的评价指标 ——Threshold Curve 下的面积（AUTC），来惩罚 ID 和 OOD 之间差异性不足的情况。

Jun, 2023

度量模型可信度的实证最优风险用于故障检测

AI 系统中的失败检测是安全关键任务部署的重要保障，通过计算最优风险覆盖曲线下的区域和模型在此最优点上的性能，我们提出了衡量失败检测方法适用性和模型可信度的指标，通过实验验证了其有效性。

Aug, 2023

薛定谔的门槛：当 AUC 不能预测准确度

使用 AUC 度量方式评估和比较不同模型，但该方法在应用中可能与实际精度偏差较大，因此需探索不同的校准模式和测试校准数据与方法来获取更真实的模型性能。

Apr, 2024

一元 ROC 曲线下面积的界

本文提出了一种新的替代损失函数来优化 AUC，避免了训练数据之间的成对比较，具有线性的时间和存储复杂度，并对在线学习和批处理算法进行实验以说明其有效性。

Apr, 2018