多类分类的度量:概述
分类系统在无数篇论文中进行评估。然而,我们发现评估实践通常是模糊的。经常情况下,指标选择是没有依据的,模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发,对常用的评估指标进行分析,考虑到论文中所表达的期望。通过对度量选择的全面理解,我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示,度量选择通常缺乏令人信服的论证,这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导,以实现更有见地和透明的度量选择,推动有意义的评估。
Apr, 2024
本文提出了一个统一的边界视角来重新审视多标记分类中的十一种性能度量。通过最大化标签和实例间的边界,不同对应的性能度量将被优化,从而设计一种称为 LIMO 的最大边缘方法。
Sep, 2016
本研究分析了各种性能指标及其分类方法,提出了 “主要指标、扩展指标、组合指标、度量组合集合” 四种性能指标类型,并确定了影响主要指标结构和特性的三个关键组成部分:点距离确定方法、规范化方法和数据集上点距离聚合方法.
Sep, 2018
本文研究了一种针对多类问题的分类器性能度量 Confusion Entropy 与传统度量 Matthews Correlation Coefficient 的多分类推广之间的关系,并通过理论和计算证据支持了这一结果。
Aug, 2010
通过定义和分析分类表现的可取特性,研究论证了某些性能度量方法比其他方法更好,并提出了一系列新的度量方法,这些方法在除一种可取特性外均可满足,包括 Matthews 相关系数和对称平衡准确性,为实践人员实现充分的分类结果评估提供了重要工具。
Jan, 2022
在自然语言处理(NLP)分类任务中,衡量模型泛化能力的常规度量指标(如准确率、F - 度量或 AUC-ROC)的多样性和任意性表明 NLP 领域尚无一致的最佳度量指标。本文对比了几种常规分类度量指标与更具特异性的度量指标,并证明随机猜测的归一化信息性度量是任务性能的简约基准。通过广泛实验,在包括合成场景、自然语言理解、问题回答和机器翻译在内的多个 NLP 任务上使用了一组度量指标对模型进行排名,得出归一化信息性度量最能捕捉到理想模型特征。最后,我们发布了一个按照 SciKitLearn 分类器格式实现的 Python 版本的归一化信息性度量。
Jan, 2024
这项研究对各个领域的大量数据集使用 20 种不同的评估方法对 26 种不同的多标签分类方法进行了全面的实证研究,发现 RFPCT,RFDTBR,ECCJ48,EBRJ48 和 AdaBoostMH 是效果最好的方法,希望今后引入新方法时,应该将其与不同的 MLC 方法的子集进行比较,以便更好地评估其性能表现。
Feb, 2021
本文介绍了 Metric elicitation 作为选择最能反映隐含用户偏好的性能评估指标的原理性框架,并提出使用分类器的成对偏好反馈来激发分类性能指标的新策略,包括用于二元和多类分类问题的线性和线性分式指标的新策略,以及在存在多个敏感组时激发群体公平性能度量的框架的推广,文中也提出了用于优化深度网络训练的黑盒度量的 Metric elicitation 框架,最后还进行了一项初步的真实用户研究,证明了在二值分类设置中 Metric elicitation 框架恢复用户首选性能评估指标的有效性。
Aug, 2022