通过 $F_β$- 得分将多类神经网络分类器准则与任务性能对齐

May, 2024

通过 $F_β$- 得分将多类神经网络分类器准则与任务性能对齐

Aligning Multiclass Neural Network Classifier Criterion with Task Performance via $F_β$-Score

Nathan Tsoi, Deyuan Li, Taesoo Daniel Lee, Marynel Vázquez

TL;DR我们提出了一种方法，该方法可以为多类神经网络分类器提供训练和评估的一致性，使其与预期的特定应用性能标准相一致，并通过使用软集混淆矩阵和分段线性逼近的概念，将二元情况扩展到多类情况。

Abstract

multiclass neural network classifiers are typically trained using cross-entropy loss. Following training, the performance of this same neural network is evaluated using an →

multiclass neural network classifiers cross-entropy loss application-specific metric soft-set confusion matrices piecewise-linear approximation

发现论文，激发创造

通过分位数实现的受限分类和排名

本文提出了一种基于约束学习的新框架，可以通过在训练数据的子集上预测正 / 负例率来解决二分类器中的类不平衡问题，并避免了复杂的约束优化问题。该方法与模型无关且仅支出少量计算代价。在各种基准测试上的实验显示了与现有基准相比具有具有竞争性的性能。

Feb, 2018

$F_β$ 绘图 -- 用于评估不平衡数据分类器的可视化工具

针对不平衡数据分类问题，本文提出了一种分析广泛使用的参数化度量 $F_eta$ 的简单方法，以便根据用户需求确定何时选择特定模型。

Apr, 2024

宏平均 F1 和宏平均 F1

研究比较了两种计算 “宏 F1” 度量的公式，发现只有在稀有情况下这两种计算方法才可以被视为等价的，主要由于一种公式更重视产生偏向错误类型分布的分类器，这两种计算方法不仅在标量结果上会产生不同的结果，还会导致不同的分类器排名。

Nov, 2019

F - 度量最大化算法的贝叶斯最优性探讨

该研究论文使用决策论和贝叶斯风险分析方法，提出了一种在二值分类、多标签分类和结构化输出预测等问题中，优化 F-measure 评价指标的方法，并提出了一个新的算法，它不仅计算效率高，而且在任何分布下都是贝叶斯最优的。

Oct, 2013

优化拟线性性能度量的理论：以 F - 度量为例

研究了一些非线性性能度量的理论属性，包括 F - 度量，Jaccard 指数等，将这些性能度量优化问题归约为具有未知成本的成本敏感分类问题，并提出了一种具有可证明保证的算法来获得近似最优分类器以解决 F - 度量优化问题。

May, 2015

分类度量标准的分析与比较

该文讨论了机器学习领域最常见的分类系统性能指标，比较了它们与期望成本和 PSR 等其他指标之间的关系，并认为后者更为优秀和高效。

Sep, 2022

利用不确定性估计来提高分类器性能

模型得分和不确定性对决策边界的选择有关，该研究提供了理论分析和经验证据来证明模型得分估计偏差依赖于不确定性和得分本身，通过动态规划和保序回归算法提出的方案在三个真实数据集上比传统的只使用模型得分方法，在高精确度边界下获得了 25％-40％的召回率提升，凸显了利用不确定性的好处。

Nov, 2023

优化复杂绩效指标的通用在线算法

我们介绍和分析了一种通用的在线算法，适用于二元、多类和多标签分类问题中的各种复杂性能指标，该算法的更新和预测规则简单且计算效率高，无需存储任何过去的数据，而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾，并通过实证研究验证了所提算法的效率。

Jun, 2024

基于数据驱动的 Bayes 二元分类器假阳性率估计与软标签

本文提出了一种用于估计贝叶斯分类器中的假阳性率的估计器，并对其进行了广泛的理论分析，包括一致性、无偏性、收敛速度和方差。此外，还通过利用去噪技术和 Nadaraya-Watson 估计器，开发了一种用于估计有噪声标签情况下的假阳性率的有效估计器。由于问题的对称性，我们的结果还能被直接应用于估计贝叶斯分类器的假阴性率。

Jan, 2024

多标签 F 度量的凸校准代理

本文探讨设计针对 F-Measure 的凸罚函数问题，提出了 F-Measure 的凸罚函数方法，将多标签 F-Measure 学习问题分解为 $s^2+1$ 个二进制分类概率估计问题，并提供了差错传递边界的定量证明，与 Dembczynski 等人的算法有关，并进行了实验证实了论文理论结果。

Sep, 2020