分类的精确率和召回率拒绝曲线

Aug, 2023

Precision and Recall Reject Curves for Classification

Lydia Fischer, Patricia Wollstadt

TL;DR通过使用精确度和召回率评估曲线，我们提出了一种对分类器性能进行更准确评估的方法。使用基于学习矢量量化的原型分类器，我们验证了该方法在人工基准数据和数据不平衡的场景以及医学实际数据上的有效性。

Abstract

For some classification scenarios, it is desirable to use only those classification instances that a trained model associates with a high certainty. To obtain such high-certainty instances, previous work has proposed ac

classification instances certainty measures accuracy-reject curves precision recall

发现论文，激发创造

对生成模型评估中的精确度和召回率定义的重新审视

重新定义 Sajjadi 等人提出的生成模型的 Precision-Recall curves，推广到任意度量，建立 PR curves 和似然比分类器的 type I 和 type II error rates 之间的联系，并提出新算法近似 PR curves，证明该算法在受控多模态数据集上优于原始方法。

May, 2019

统一并扩展用于评估生成模型的精确度和召回率指标

通过实验分析，统一了对生成模型的评估方法，研究了各种度量标准，特别关注了精确度 - 召回率曲线，并揭示了其存在的问题。

May, 2024

使用模糊精确率和召回率评估分类系统对软标签的准确性

分类系统通常通过最小化系统输出和参考标签之间的交叉熵进行训练，Kullback-Leibler 散度是衡量系统与数据接近程度的自然选择。我们提出了一种新颖的方法，可以在不量化数据的情况下计算精度、召回率和 F 值，这些指标扩展了现有的度量标准，并且在与二进制标签一起使用时定义是一致的。

Sep, 2023

用精确度 - 召回率曲线下面积进行聚类验证

本论文探讨了在聚类验证中，利用混淆矩阵和派生度量来衡量模型性能表现的可行性，并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法，通过实验验证，这一方法的可靠性与其在有监督学习中的表现相一致。

Apr, 2023

关于多类分类与拒绝机制的校准

本文研究了多类别分类问题中的拒绝机制，提出了同时训练分类器和拒绝器的方法，并探讨了针对更广泛损失函数的可接受标准，最终通过实验验证了理论发现的相关性。

Jan, 2019

堆叠混淆拒绝图 (Score)

对于应用在关键领域（如健康和驾驶辅助）中的机器学习，为了减少错误决策的风险，需要考虑分类的确定性以拒绝不确定样本。我们认为通常的拒绝曲线对非专业人士来说过于抽象和难以理解。因此，我们提出了一种更直观理解数据和分类器行为的 Stacked Confusion Reject Plots (SCORE)。我们在人工高斯数据上展示了示例图，并提供了基于 Python 的代码作为一个软件包。

Jun, 2024

两种耦合的拒绝度量可以区分对抗性样本

通过引入可拒绝的机制并使用置信度和修正后的置信度 (R-Con) 来提高鲁棒性，从而更好地检测和拒绝对抗样本。

May, 2021

生成模型的可靠评估中的概率精确度和召回率

评估生成模型的忠实度和多样性是技术进步中的一个困难但重要的问题。因此，最近的论文引入了基于 k 近邻的精确率 - 召回率度量方法，将统计距离细分为忠实度和多样性。然而，我们对这些度量方法进行了深入分析，发现了 k 近邻算法的过于简化的假设和不良性质，造成了不可靠的评估，如对异常值的敏感性和对分布变化的不敏感性。因此，我们提出了一种新的基于概率方法的度量方法，P-precision 和 P-recall (PP&PR)，用来解决这些问题。通过对玩具实验和最先进的生成模型进行广泛研究，我们展示了相比于现有度量方法，我们的 PP&PR 提供了更可靠的估计方法来比较忠实度和多样性。代码可在 https://github.com/kdst-team/Probablistic_precision_recall 获得。

Sep, 2023

基于代价敏感分类的拒绝分类

本文提出了一个基于代价敏感分类器的集成学习方法，用于分类与拒绝模型，它允许灵活选择损失函数并且适用于二分类和多分类情形。实验结果表明我们提出的方法在不同类型的分类任务中表现良好。

Oct, 2020

克服选择性分类系统评估中的常见缺陷

选择性分类方法可以在低置信度预测时拒绝，可靠地将基于机器学习的分类系统应用于临床诊断等实际场景。本研究定义了多阈值评估度量在选择性分类中的 5 个要求，涉及任务对齐、可解释性和灵活性，并展示了当前方法未能满足这些要求。我们提出了广义风险覆盖曲线下的面积（AUGRC），该曲线满足所有要求，并可直接解释为未检测到故障的平均风险。通过综合评估 6 个数据集和 13 个置信度评分函数的广泛基准，我们在实证上证明了 AUGRC 的相关性。我们发现，在这 6 个数据集中，所提出的度量方法显著改变了度量排名中的 5 个数据集。

Jul, 2024