只用 Micro-F1?针对关系分类的度量权重
研究比较了两种计算 “宏 F1” 度量的公式,发现只有在稀有情况下这两种计算方法才可以被视为等价的,主要由于一种公式更重视产生偏向错误类型分布的分类器,这两种计算方法不仅在标量结果上会产生不同的结果,还会导致不同的分类器排名。
Nov, 2019
通过定义和分析分类表现的可取特性,研究论证了某些性能度量方法比其他方法更好,并提出了一系列新的度量方法,这些方法在除一种可取特性外均可满足,包括 Matthews 相关系数和对称平衡准确性,为实践人员实现充分的分类结果评估提供了重要工具。
Jan, 2022
我们首次全面且大规模地评估了经典的最近邻(NN)、模糊最近邻(FNN)和模糊粗糙最近邻(FRNN)分类方法,同时我们发现 NN、FNN 和 FRNN 都与 Boscovich 距离表现最佳,NN 采用 Yager 距离权重的方式可以达到与 Samworth 距离和等级权重相结合的方式相当的性能,FRNN 通常优于 NN,而 NN 又明显优于 FNN。
Nov, 2023
在不平衡分类问题中,传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健,因为当少数类占比接近 0 时,这些度量标准下的贝叶斯分类器的真正阳性率(TPR)也趋近于 0。为了解决这个问题,我们提出了对 F-score 和 MCC 的稳健修正,即使在极度不平衡的情况下,TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为,并讨论了与 ROC 和精确率 - 召回率曲线的关联性,并提出了如何将它们与性能度量标准结合使用的建议。
Apr, 2024
本文介绍了一种名为 Unanimous Improvement Ratio(UIR)的度量方法,它不仅补充了标准指标组合方法的不足,还可以评估指标之间的交互作用,本文还通过实验验证了该方法的有效性,并将其作为精度和召回率之间权衡的一种预测器。
Jan, 2014
我们提供了一种基于二元矩阵因子分解模型的评估指标,通过一维向量表示来总结多类别分类的对比真阳性率和假阳性率,从而提供了多类别情况下的 ROC 曲线,并通过对这些分解向量的积分得出了对分类器性能的二元 AUC 等效总结。
Apr, 2024
本文旨在理解和解决多标签学习中常用的宏平均(Macro-AUC)评价指标的理论问题。通过对 PASCAL VOC、Yahoo、和 MS COCO 数据集的实验结果和理论分析,发现数据集的类别不平衡是影响宏平均评价指标泛化范围的关键因素,并提出一种更通用的 McDiarmid 型浓度不等式。结果表明,相较于基于单变量损失函数的算法,基于成对损失函数和重新加权的损失函数更加稳健。
May, 2023