分类的精确率和召回率拒绝曲线
重新定义 Sajjadi 等人提出的生成模型的 Precision-Recall curves,推广到任意度量,建立 PR curves 和似然比分类器的 type I 和 type II error rates 之间的联系,并提出新算法近似 PR curves,证明该算法在受控多模态数据集上优于原始方法。
May, 2019
分类系统通常通过最小化系统输出和参考标签之间的交叉熵进行训练,Kullback-Leibler 散度是衡量系统与数据接近程度的自然选择。我们提出了一种新颖的方法,可以在不量化数据的情况下计算精度、召回率和 F 值,这些指标扩展了现有的度量标准,并且在与二进制标签一起使用时定义是一致的。
Sep, 2023
本论文探讨了在聚类验证中,利用混淆矩阵和派生度量来衡量模型性能表现的可行性,并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法,通过实验验证,这一方法的可靠性与其在有监督学习中的表现相一致。
Apr, 2023
对于应用在关键领域(如健康和驾驶辅助)中的机器学习,为了减少错误决策的风险,需要考虑分类的确定性以拒绝不确定样本。我们认为通常的拒绝曲线对非专业人士来说过于抽象和难以理解。因此,我们提出了一种更直观理解数据和分类器行为的 Stacked Confusion Reject Plots (SCORE)。我们在人工高斯数据上展示了示例图,并提供了基于 Python 的代码作为一个软件包。
Jun, 2024
评估生成模型的忠实度和多样性是技术进步中的一个困难但重要的问题。因此,最近的论文引入了基于 k 近邻的精确率 - 召回率度量方法,将统计距离细分为忠实度和多样性。然而,我们对这些度量方法进行了深入分析,发现了 k 近邻算法的过于简化的假设和不良性质,造成了不可靠的评估,如对异常值的敏感性和对分布变化的不敏感性。因此,我们提出了一种新的基于概率方法的度量方法,P-precision 和 P-recall (PP&PR),用来解决这些问题。通过对玩具实验和最先进的生成模型进行广泛研究,我们展示了相比于现有度量方法,我们的 PP&PR 提供了更可靠的估计方法来比较忠实度和多样性。代码可在 https://github.com/kdst-team/Probablistic_precision_recall 获得。
Sep, 2023
本文提出了一个基于代价敏感分类器的集成学习方法,用于分类与拒绝模型,它允许灵活选择损失函数并且适用于二分类和多分类情形。实验结果表明我们提出的方法在不同类型的分类任务中表现良好。
Oct, 2020
选择性分类方法可以在低置信度预测时拒绝,可靠地将基于机器学习的分类系统应用于临床诊断等实际场景。本研究定义了多阈值评估度量在选择性分类中的 5 个要求,涉及任务对齐、可解释性和灵活性,并展示了当前方法未能满足这些要求。我们提出了广义风险覆盖曲线下的面积(AUGRC),该曲线满足所有要求,并可直接解释为未检测到故障的平均风险。通过综合评估 6 个数据集和 13 个置信度评分函数的广泛基准,我们在实证上证明了 AUGRC 的相关性。我们发现,在这 6 个数据集中,所提出的度量方法显著改变了度量排名中的 5 个数据集。
Jul, 2024