宏平均 F1 和宏平均 F1

Nov, 2019

Macro F1 and Macro F1

Juri Opitz, Sebastian Burst

TL;DR研究比较了两种计算 “宏 F1” 度量的公式，发现只有在稀有情况下这两种计算方法才可以被视为等价的，主要由于一种公式更重视产生偏向错误类型分布的分类器，这两种计算方法不仅在标量结果上会产生不同的结果，还会导致不同的分类器排名。

Abstract

The 'macro f1' metric is frequently used to evaluate binary, multi-class and multi-label classification problems. Yet, we find that there exist two different →

macro f1 classification formulas divergence skewed error type distribution

发现论文，激发创造

只用 Micro-F1？针对关系分类的度量权重

本文分析了单一度量方法，探讨了权重方案，提出了新的方案，并表明不同权重方案的结果表明模型的优缺点。

May, 2022

通过 $F_β$- 得分将多类神经网络分类器准则与任务性能对齐

我们提出了一种方法，该方法可以为多类神经网络分类器提供训练和评估的一致性，使其与预期的特定应用性能标准相一致，并通过使用软集混淆矩阵和分段线性逼近的概念，将二元情况扩展到多类情况。

May, 2024

多标签分类中基于宏 $K$ 指标的一致算法

在多标签分类的人口效用框架下，我们考虑复杂性能度量的优化问题。我们主要关注一种指标，它线性可分解为对每个标签分别应用的二分类效用的总和，并对每个实例预测出恰好 k 个标签。这些 “宏 - at-$k$” 指标在具有长尾标签的极端分类问题中具有理想的性质。遗憾的是，at-$k$ 约束将原本相互独立的二分类任务耦合起来，导致优化问题比标准的宏平均更具挑战性。我们提供了一个统计框架来研究这个问题，证明了最优分类器的存在和形式，并基于 Frank-Wolfe 方法提出了一个统计一致且实用的学习算法。有趣的是，我们的主要结果还涉及非线性函数的更一般度量，这些函数是标签混淆矩阵的函数。实证结果证明了所提方法的竞争性能。

Jan, 2024

F - 度量最大化算法的贝叶斯最优性探讨

该研究论文使用决策论和贝叶斯风险分析方法，提出了一种在二值分类、多标签分类和结构化输出预测等问题中，优化 F-measure 评价指标的方法，并提出了一个新的算法，它不仅计算效率高，而且在任何分布下都是贝叶斯最优的。

Oct, 2013

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

当真阴性趋近无限时，MCC 趋近于精度和召回率的几何平均值

本文研究二元分类器的表现，通过混淆矩阵描述该分类器的真阳性、真阴性、假阳性和假阴性，提出了 MCC，F1 和 FM 得分来总结混淆矩阵信息，其中 MCC 综合考虑整个混淆矩阵；作者证明了，在目标检测问题中有时候计算真阴性的数量太大，难以度量，因此提出仅考虑真阳性、假阳性和假阴性的 FM 和 F1 分数，同时证明 FM 和 MCC 实际上是等价的。

Apr, 2023

不平衡分类问题的鲁棒性能指标

在不平衡分类问题中，传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健，因为当少数类占比接近 0 时，这些度量标准下的贝叶斯分类器的真正阳性率（TPR）也趋近于 0。为了解决这个问题，我们提出了对 F-score 和 MCC 的稳健修正，即使在极度不平衡的情况下，TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为，并讨论了与 ROC 和精确率 - 召回率曲线的关联性，并提出了如何将它们与性能度量标准结合使用的建议。

Apr, 2024

优化 F - 度量值：两种方法的故事

本文研究了基于经验效用最大化和决策理论的方法学习最大化 F-measures 的分类器，分析了它们的理论基础与联系，并通过合成和真实数据集探究了它们的适用条件和优缺点，实验结果发现在具有准确模型的情况下，两种方法在大量的训练和测试集上是渐近等价的，但在实际应用中，基于经验效用最大化的方法对模型错误的鲁棒性更强，而决策理论方法更适用于处理稀有类和常见领域适应问题。

Jun, 2012

多标签 F 度量的凸校准代理

本文探讨设计针对 F-Measure 的凸罚函数问题，提出了 F-Measure 的凸罚函数方法，将多标签 F-Measure 学习问题分解为 $s^2+1$ 个二进制分类概率估计问题，并提供了差错传递边界的定量证明，与 Dembczynski 等人的算法有关，并进行了实验证实了论文理论结果。

Sep, 2020

分类评估指标的深入研究及对常见评估实践的批判性反思

分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我们调查了自然语言处理的最近共享任务中的度量选择情况。结果显示，度量选择通常缺乏令人信服的论证，这可能使得任何排名看起来都是随意的。本工作旨在提供概览和指导，以实现更有见地和透明的度量选择，推动有意义的评估。

Apr, 2024