$F_β$ 绘图 -- 用于评估不平衡数据分类器的可视化工具

Apr, 2024

$F_β$ 绘图 -- 用于评估不平衡数据分类器的可视化工具

$F_β$-plot -- a visual tool for evaluating imbalanced data classifiers

Szymon Wojciechowski, Michał Woźniak

TL;DR针对不平衡数据分类问题，本文提出了一种分析广泛使用的参数化度量 $F_eta$ 的简单方法，以便根据用户需求确定何时选择特定模型。

Abstract

One of the significant problems associated with imbalanced data classification is the lack of reliable metrics. This runs primarily from the fact that for most real-life (as well as commonly used benchmark) problems, we do not have information from the user on the actual form of the

imbalanced data classification metrics loss function aggregate metrics parametric metric f_beta

发现论文，激发创造

通过 $F_β$- 得分将多类神经网络分类器准则与任务性能对齐

我们提出了一种方法，该方法可以为多类神经网络分类器提供训练和评估的一致性，使其与预期的特定应用性能标准相一致，并通过使用软集混淆矩阵和分段线性逼近的概念，将二元情况扩展到多类情况。

May, 2024

通过分位数实现的受限分类和排名

本文提出了一种基于约束学习的新框架，可以通过在训练数据的子集上预测正 / 负例率来解决二分类器中的类不平衡问题，并避免了复杂的约束优化问题。该方法与模型无关且仅支出少量计算代价。在各种基准测试上的实验显示了与现有基准相比具有具有竞争性的性能。

Feb, 2018

不平衡分类问题的鲁棒性能指标

在不平衡分类问题中，传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健，因为当少数类占比接近 0 时，这些度量标准下的贝叶斯分类器的真正阳性率（TPR）也趋近于 0。为了解决这个问题，我们提出了对 F-score 和 MCC 的稳健修正，即使在极度不平衡的情况下，TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为，并讨论了与 ROC 和精确率 - 召回率曲线的关联性，并提出了如何将它们与性能度量标准结合使用的建议。

Apr, 2024

F - 度量最大化算法的贝叶斯最优性探讨

该研究论文使用决策论和贝叶斯风险分析方法，提出了一种在二值分类、多标签分类和结构化输出预测等问题中，优化 F-measure 评价指标的方法，并提出了一个新的算法，它不仅计算效率高，而且在任何分布下都是贝叶斯最优的。

Oct, 2013

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

优化复杂绩效指标的通用在线算法

我们介绍和分析了一种通用的在线算法，适用于二元、多类和多标签分类问题中的各种复杂性能指标，该算法的更新和预测规则简单且计算效率高，无需存储任何过去的数据，而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾，并通过实证研究验证了所提算法的效率。

Jun, 2024

不均衡数据中的度量学习

研究了机器学习算法的度量函数以及度量学习算法，提出了一种处理类别不平衡的 Mahalanobis 度量学习算法 (IML)，并证明了其有效性。

Sep, 2019

优化拟线性性能度量的理论：以 F - 度量为例

研究了一些非线性性能度量的理论属性，包括 F - 度量，Jaccard 指数等，将这些性能度量优化问题归约为具有未知成本的成本敏感分类问题，并提出了一种具有可证明保证的算法来获得近似最优分类器以解决 F - 度量优化问题。

May, 2015

优化 F - 度量值：两种方法的故事

本文研究了基于经验效用最大化和决策理论的方法学习最大化 F-measures 的分类器，分析了它们的理论基础与联系，并通过合成和真实数据集探究了它们的适用条件和优缺点，实验结果发现在具有准确模型的情况下，两种方法在大量的训练和测试集上是渐近等价的，但在实际应用中，基于经验效用最大化的方法对模型错误的鲁棒性更强，而决策理论方法更适用于处理稀有类和常见领域适应问题。

Jun, 2012

多类别 ROC

我们提供了一种基于二元矩阵因子分解模型的评估指标，通过一维向量表示来总结多类别分类的对比真阳性率和假阳性率，从而提供了多类别情况下的 ROC 曲线，并通过对这些分解向量的积分得出了对分类器性能的二元 AUC 等效总结。

Apr, 2024