用精确度 - 召回率曲线下面积进行聚类验证
ML 模型的尺寸和复杂性在过去十年中迅速增长,但评估其性能的方法未能跟上步伐。然而,我们认为仅考虑来自测试 ROC 曲线的得分只能对模型的性能和泛化能力提供有限的见解。
Dec, 2023
选择性分类方法可以在低置信度预测时拒绝,可靠地将基于机器学习的分类系统应用于临床诊断等实际场景。本研究定义了多阈值评估度量在选择性分类中的 5 个要求,涉及任务对齐、可解释性和灵活性,并展示了当前方法未能满足这些要求。我们提出了广义风险覆盖曲线下的面积(AUGRC),该曲线满足所有要求,并可直接解释为未检测到故障的平均风险。通过综合评估 6 个数据集和 13 个置信度评分函数的广泛基准,我们在实证上证明了 AUGRC 的相关性。我们发现,在这 6 个数据集中,所提出的度量方法显著改变了度量排名中的 5 个数据集。
Jul, 2024
使用 AUC 度量方式评估和比较不同模型,但该方法在应用中可能与实际精度偏差较大,因此需探索不同的校准模式和测试校准数据与方法来获取更真实的模型性能。
Apr, 2024
我们提供了一种基于二元矩阵因子分解模型的评估指标,通过一维向量表示来总结多类别分类的对比真阳性率和假阳性率,从而提供了多类别情况下的 ROC 曲线,并通过对这些分解向量的积分得出了对分类器性能的二元 AUC 等效总结。
Apr, 2024
通过新颖的数学分析,本文挑战并证明按照概率的观点,AUPRC(精确率 - 召回率曲线下的面积)和 AUROC(接收者操作特征曲线下的面积)可以简洁地相互关联。同时,通过对超过 150 万篇论文的大规模语言模型分析,揭示了 AUPRC 被广泛接受的先入为主观念的实证不足和误导趋势,强调了对度量标准性能的深入理解的重要性和机器学习社区中未经证实的假设的危险性。
Jan, 2024
对于 ACM FAccT 最近发表的使用 AUC ROC 在多个领域进行预测分析的文章,我们对该文章进行了批评。具体来说,我们强调了该文章在度量标准比较、AUC ROC 的解释和目标误设、将准确率指标作为与 AUC ROC 比较的金标准以及仅将批评应用于 AUC ROC 等方面存在的技术性错误。我们通过重新定义该文章提出的问题,并讨论了在充分考虑这些问题的基础上,如何在明智的预测分析方法中继续使用 AUC ROC。我们最后讨论了多种度量标准的联合使用,包括机器学习偏差度量标准,以及 AUC ROC 在这种方法中的地位。与西兰花一样,AUC ROC 是有效的,但我们领域的研究人员和实践者不应仅仅依赖 AUC ROC。
Apr, 2024
本研究提出了三个度量指标来解决现有度量指标在选择性回答方面存在的局限性,实验结果表明,性能更好的选择性回答模型并不一定是较新或较大的预训练模型。这些发现有望促进针对安全关键应用的更好模型的发展。
Oct, 2022
通过提出一种高效的算法 AUC-opt 来寻找证明最优 AUC 的线性分类器,并且证明问题在一定条件下是 NP 完全的;此算法在实验中证明相较于其他方法有所改善,但在大多数测试数据中表现并不如标准分类器。
Jun, 2023