只用 Micro-F1？针对关系分类的度量权重

ACLMay, 2022

只用 Micro-F1？针对关系分类的度量权重

Why only Micro-F1? Class Weighting of Measures for Relation Classification

David Harbecke, Yuxuan Chen, Leonhard Hennig, Christoph Alt

TL;DR本文分析了单一度量方法，探讨了权重方案，提出了新的方案，并表明不同权重方案的结果表明模型的优缺点。

Abstract

relation classification models are conventionally evaluated using only a single measure, e.g., micro-F1, macro-F1 or AUC. In this work, we analyze weighting schemes, such as micro and macro, for →

relation classification models weighting schemes imbalanced datasets strengths and weaknesses model evaluation

发现论文，激发创造

宏平均 F1 和宏平均 F1

研究比较了两种计算 “宏 F1” 度量的公式，发现只有在稀有情况下这两种计算方法才可以被视为等价的，主要由于一种公式更重视产生偏向错误类型分布的分类器，这两种计算方法不仅在标量结果上会产生不同的结果，还会导致不同的分类器排名。

Nov, 2019

优秀的分类度量及其发现方法

通过定义和分析分类表现的可取特性，研究论证了某些性能度量方法比其他方法更好，并提出了一系列新的度量方法，这些方法在除一种可取特性外均可满足，包括 Matthews 相关系数和对称平衡准确性，为实践人员实现充分的分类结果评估提供了重要工具。

Jan, 2022

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

通过绑定权重：一种新的加权排序相关性方法

提出了一种基于模糊序关系的加权等级相关度测量方法，称为比例伽玛，通过模糊等价关系和缩放函数方便地指定了排名位置的加权方式。

Aug, 2023

一种评估最近邻分类的统一加权框架

我们首次全面且大规模地评估了经典的最近邻（NN）、模糊最近邻（FNN）和模糊粗糙最近邻（FRNN）分类方法，同时我们发现 NN、FNN 和 FRNN 都与 Boscovich 距离表现最佳，NN 采用 Yager 距离权重的方式可以达到与 Samworth 距离和等级权重相结合的方式相当的性能，FRNN 通常优于 NN，而 NN 又明显优于 FNN。

Nov, 2023

不平衡分类问题的鲁棒性能指标

在不平衡分类问题中，传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健，因为当少数类占比接近 0 时，这些度量标准下的贝叶斯分类器的真正阳性率（TPR）也趋近于 0。为了解决这个问题，我们提出了对 F-score 和 MCC 的稳健修正，即使在极度不平衡的情况下，TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为，并讨论了与 ROC 和精确率 - 召回率曲线的关联性，并提出了如何将它们与性能度量标准结合使用的建议。

Apr, 2024

通过一致改进比率相结合的评估指标，及其在聚类任务中的应用

本文介绍了一种名为 Unanimous Improvement Ratio（UIR）的度量方法，它不仅补充了标准指标组合方法的不足，还可以评估指标之间的交互作用，本文还通过实验验证了该方法的有效性，并将其作为精度和召回率之间权衡的一种预测器。

Jan, 2014

多类别 ROC

我们提供了一种基于二元矩阵因子分解模型的评估指标，通过一维向量表示来总结多类别分类的对比真阳性率和假阳性率，从而提供了多类别情况下的 ROC 曲线，并通过对这些分解向量的积分得出了对分类器性能的二元 AUC 等效总结。

Apr, 2024

探究多标签学习中宏平均 AUC 的泛化能力

本文旨在理解和解决多标签学习中常用的宏平均（Macro-AUC）评价指标的理论问题。通过对 PASCAL VOC、Yahoo、和 MS COCO 数据集的实验结果和理论分析，发现数据集的类别不平衡是影响宏平均评价指标泛化范围的关键因素，并提出一种更通用的 McDiarmid 型浓度不等式。结果表明，相较于基于单变量损失函数的算法，基于成对损失函数和重新加权的损失函数更加稳健。

May, 2023

衡量有所侧重：谣言立场分类的案例

本文主要探讨了针对不平衡数据的谣言立场分类任务评估指标的问题，并提出了新的评估指标，更能准确地反映对信息的支持和否定两种最具信息量的少数派类别。

Oct, 2020