测试集 AUROC 的奇特案例
对于 ACM FAccT 最近发表的使用 AUC ROC 在多个领域进行预测分析的文章,我们对该文章进行了批评。具体来说,我们强调了该文章在度量标准比较、AUC ROC 的解释和目标误设、将准确率指标作为与 AUC ROC 比较的金标准以及仅将批评应用于 AUC ROC 等方面存在的技术性错误。我们通过重新定义该文章提出的问题,并讨论了在充分考虑这些问题的基础上,如何在明智的预测分析方法中继续使用 AUC ROC。我们最后讨论了多种度量标准的联合使用,包括机器学习偏差度量标准,以及 AUC ROC 在这种方法中的地位。与西兰花一样,AUC ROC 是有效的,但我们领域的研究人员和实践者不应仅仅依赖 AUC ROC。
Apr, 2024
本文质疑了使用接受者操作特征下的面积(AUC)是否是衡量异常检测性能的合适标准,同时提出了在实践中可能存在的偏差性;作者发现,注重在低假阳率下的 AUC 表现良好,并且仅在具有代表性的异常样本时才能比较异常检测器。这一结果提示,在许多情况下,我们应该进行主动或少数样本学习而不是纯粹的异常检测。
May, 2023
岂止是用二分类任务来衡量 out-of-distribution detection 的性能,并且几乎没有考虑到检测阈值的影响,因此我们提出了一个新的评价指标 ——Threshold Curve 下的面积(AUTC),来惩罚 ID 和 OOD 之间差异性不足的情况。
Jun, 2023
本论文探讨了在聚类验证中,利用混淆矩阵和派生度量来衡量模型性能表现的可行性,并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法,通过实验验证,这一方法的可靠性与其在有监督学习中的表现相一致。
Apr, 2023
本研究提出了三个度量指标来解决现有度量指标在选择性回答方面存在的局限性,实验结果表明,性能更好的选择性回答模型并不一定是较新或较大的预训练模型。这些发现有望促进针对安全关键应用的更好模型的发展。
Oct, 2022
研究比较了二元预测变量的 ROC 曲线与 AUC 值之间的关系,在比较软件实现方法时发现线性插值法虽然最为普遍,但不一定得出最正确的性能评价。同时比较了阶梯函数插值法和 pessimistic 插值法的优缺点,建议在结果中说明插值法的使用方式。
Mar, 2019
使用 AUC 度量方式评估和比较不同模型,但该方法在应用中可能与实际精度偏差较大,因此需探索不同的校准模式和测试校准数据与方法来获取更真实的模型性能。
Apr, 2024
我们提供了一种基于二元矩阵因子分解模型的评估指标,通过一维向量表示来总结多类别分类的对比真阳性率和假阳性率,从而提供了多类别情况下的 ROC 曲线,并通过对这些分解向量的积分得出了对分类器性能的二元 AUC 等效总结。
Apr, 2024
通过新颖的数学分析,本文挑战并证明按照概率的观点,AUPRC(精确率 - 召回率曲线下的面积)和 AUROC(接收者操作特征曲线下的面积)可以简洁地相互关联。同时,通过对超过 150 万篇论文的大规模语言模型分析,揭示了 AUPRC 被广泛接受的先入为主观念的实证不足和误导趋势,强调了对度量标准性能的深入理解的重要性和机器学习社区中未经证实的假设的危险性。
Jan, 2024
本文通过实验证明深度学习中组合性损失函数具有更好的性能表现,同时针对正样本采样率、正则化、归一化 / 激活和优化器等算法进行深度 AUROC 最大化的讨论和探究
Mar, 2022