二元预测器的 ROC 和 AUC:一个可能导致误导的度量
通过提出一种高效的算法 AUC-opt 来寻找证明最优 AUC 的线性分类器,并且证明问题在一定条件下是 NP 完全的;此算法在实验中证明相较于其他方法有所改善,但在大多数测试数据中表现并不如标准分类器。
Jun, 2023
我们提供了一种基于二元矩阵因子分解模型的评估指标,通过一维向量表示来总结多类别分类的对比真阳性率和假阳性率,从而提供了多类别情况下的 ROC 曲线,并通过对这些分解向量的积分得出了对分类器性能的二元 AUC 等效总结。
Apr, 2024
ML 模型的尺寸和复杂性在过去十年中迅速增长,但评估其性能的方法未能跟上步伐。然而,我们认为仅考虑来自测试 ROC 曲线的得分只能对模型的性能和泛化能力提供有限的见解。
Dec, 2023
本文质疑了使用接受者操作特征下的面积(AUC)是否是衡量异常检测性能的合适标准,同时提出了在实践中可能存在的偏差性;作者发现,注重在低假阳率下的 AUC 表现良好,并且仅在具有代表性的异常样本时才能比较异常检测器。这一结果提示,在许多情况下,我们应该进行主动或少数样本学习而不是纯粹的异常检测。
May, 2023
使用 AUC 度量方式评估和比较不同模型,但该方法在应用中可能与实际精度偏差较大,因此需探索不同的校准模式和测试校准数据与方法来获取更真实的模型性能。
Apr, 2024
本文提出了一种模型不可知的方法,将一个选择函数与给定的概率二元分类器相关联,以最优化 AUC,并且通过使用 AUCROSS 算法来取得成功,从而在交换覆盖率和 AUC 之间达到最佳平衡。
Oct, 2022
对于 ACM FAccT 最近发表的使用 AUC ROC 在多个领域进行预测分析的文章,我们对该文章进行了批评。具体来说,我们强调了该文章在度量标准比较、AUC ROC 的解释和目标误设、将准确率指标作为与 AUC ROC 比较的金标准以及仅将批评应用于 AUC ROC 等方面存在的技术性错误。我们通过重新定义该文章提出的问题,并讨论了在充分考虑这些问题的基础上,如何在明智的预测分析方法中继续使用 AUC ROC。我们最后讨论了多种度量标准的联合使用,包括机器学习偏差度量标准,以及 AUC ROC 在这种方法中的地位。与西兰花一样,AUC ROC 是有效的,但我们领域的研究人员和实践者不应仅仅依赖 AUC ROC。
Apr, 2024
本文提出了一种新的功能表示方法,用于解决在使用大批量学习场景下原始学习算法太慢的问题,并在监督二分类问题的实验中表明了这种方法对于不平衡的数据集能够获得更高的 AUC 值,并且可以使用比之前方法更大的批量大小。
Feb, 2023
本文概述了过去 20 年中与 AUC 最大化相关的文献,不仅提供全面的文献综述,还从公式到算法和理论保证提供了详细的解释和比较,并对深度学习 AUC 最大化的剩余和新兴问题进行了讨论。提供未来工作的建议。
Mar, 2022