分类度量标准的分析与比较
通过定义和分析分类表现的可取特性,研究论证了某些性能度量方法比其他方法更好,并提出了一系列新的度量方法,这些方法在除一种可取特性外均可满足,包括 Matthews 相关系数和对称平衡准确性,为实践人员实现充分的分类结果评估提供了重要工具。
Jan, 2022
在不平衡分类问题中,传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健,因为当少数类占比接近 0 时,这些度量标准下的贝叶斯分类器的真正阳性率(TPR)也趋近于 0。为了解决这个问题,我们提出了对 F-score 和 MCC 的稳健修正,即使在极度不平衡的情况下,TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为,并讨论了与 ROC 和精确率 - 召回率曲线的关联性,并提出了如何将它们与性能度量标准结合使用的建议。
Apr, 2024
本文针对分类器标定的问题,提出以正确描述其应用背景为目的,开发更准确反映标定误差的更具表达力的度量标准;其中,基于期望标定误差的推广,提出了几种不同的度量标准,分别反映了针对不同的可靠性定义的标定误差;此外,基于这些不同的度量标准,作者对常用的神经网络结构和标定技术进行了广泛的实证评估,发现许多常用的标定技术在这些不同可靠性定义的标定误差上并未有统一的改善.
May, 2022
该研究提出了一种新的平衡得分指标,用于评估电子竞技中的胜率预测模型,并发现该指标在六个方面具有简单且有效的性质,对概率估计模型具有潜在的应用潜力。这项研究的结果在模拟研究和真实比赛快照数据上进行了广泛评估,为电子竞技胜率预测模型及其他概率估计模型的评估提供了有希望的方法。
Sep, 2023
本文研究了一种针对多类问题的分类器性能度量 Confusion Entropy 与传统度量 Matthews Correlation Coefficient 的多分类推广之间的关系,并通过理论和计算证据支持了这一结果。
Aug, 2010
分类系统在无数篇论文中进行评估。然而,我们发现评估实践通常是模糊的。经常情况下,指标选择是没有依据的,模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发,对常用的评估指标进行分析,考虑到论文中所表达的期望。通过对度量选择的全面理解,我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示,度量选择通常缺乏令人信服的论证,这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导,以实现更有见地和透明的度量选择,推动有意义的评估。
Apr, 2024
本研究讨论了常见的评估措施,指出它们存在偏差,需要清楚理解偏差并识别其机会或基线水平,提出了反映预测是否知情的概率的若干概念和测量方法,引入了 Markedness 作为一种相对应的概率的二元测度,展示了 Informedness,Markedness,相关性和重要性的优雅联系,以及它们与召回率和准确率之间的直观关系,并概述了从二分类情况扩展到一般的多类情况。
Oct, 2020
在自然语言处理(NLP)分类任务中,衡量模型泛化能力的常规度量指标(如准确率、F - 度量或 AUC-ROC)的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标,并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验,在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名,得出归一化信息性度量最能捕捉到理想模型特征。最后,我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。
Jan, 2024
选择性分类方法可以在低置信度预测时拒绝,可靠地将基于机器学习的分类系统应用于临床诊断等实际场景。本研究定义了多阈值评估度量在选择性分类中的 5 个要求,涉及任务对齐、可解释性和灵活性,并展示了当前方法未能满足这些要求。我们提出了广义风险覆盖曲线下的面积(AUGRC),该曲线满足所有要求,并可直接解释为未检测到故障的平均风险。通过综合评估 6 个数据集和 13 个置信度评分函数的广泛基准,我们在实证上证明了 AUGRC 的相关性。我们发现,在这 6 个数据集中,所提出的度量方法显著改变了度量排名中的 5 个数据集。
Jul, 2024