通过分位数实现的受限分类和排名

Feb, 2018

通过分位数实现的受限分类和排名

Constrained Classification and Ranking via Quantiles

Alan Mackey, Xiyang Luo, Elad Eban

TL;DR本文提出了一种基于约束学习的新框架，可以通过在训练数据的子集上预测正 / 负例率来解决二分类器中的类不平衡问题，并避免了复杂的约束优化问题。该方法与模型无关且仅支出少量计算代价。在各种基准测试上的实验显示了与现有基准相比具有具有竞争性的性能。

Abstract

In most machine learning applications, classification accuracy is not the primary metric of interest. Binary classifiers which face class imbalance are often evaluated by the $F_\beta$ score, area under the

machine learning class imbalance $f_eta$ score precision-recall curve constrained optimization

发现论文，激发创造

利用不确定性估计来提高分类器性能

模型得分和不确定性对决策边界的选择有关，该研究提供了理论分析和经验证据来证明模型得分估计偏差依赖于不确定性和得分本身，通过动态规划和保序回归算法提出的方案在三个真实数据集上比传统的只使用模型得分方法，在高精确度边界下获得了 25％-40％的召回率提升，凸显了利用不确定性的好处。

Nov, 2023

约束优化训练神经网络以处理关键且低频类别

本文提出用 Augmented Lagrangian Method 来解决在临床应用中，由于类别不平衡所引起的深度神经网络二分类器可持续错分少量样本的问题。作者认为，可以通过将分类问题看做约束优化问题并引入一种新的约束条件，即将假阳性率降至最低，同时保证真阳性率较高，从而提高模型精度。本文在医学影像的二分类和多分类以及其他数据集上进行了实验，证明了该方法能够有效提高模型准确率。

Feb, 2021

通过 $F_β$- 得分将多类神经网络分类器准则与任务性能对齐

我们提出了一种方法，该方法可以为多类神经网络分类器提供训练和评估的一致性，使其与预期的特定应用性能标准相一致，并通过使用软集混淆矩阵和分段线性逼近的概念，将二元情况扩展到多类情况。

May, 2024

非可分解目标的隐式率受限优化

本研究考虑一种常见的受约束优化问题，即在固定阈值形式的不可分解评估指标和约束其他感兴趣的指标的情况下，对机器学习问题进行优化。通过隐函数定理，我们提出了一种表达阈值参数为模型参数函数的速率约束优化方法，并展示了如何使用标准梯度方法来解决所得到的优化问题。在基准数据集上的实验证明了我们提出的方法相对于现有的最先进方法在这些问题上的有效性。

Jul, 2021

可扩展的学习非可分解目标

本研究提出了一种统一的框架，使用简单的构建块限制，允许对各种基于排名的目标进行高度可扩展的优化，并在多个实际检索问题上展示了我们方法的优势，同时在性能和精度方面显著改进了基线。

Aug, 2016

不平衡分类问题的鲁棒性能指标

在不平衡分类问题中，传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健，因为当少数类占比接近 0 时，这些度量标准下的贝叶斯分类器的真正阳性率（TPR）也趋近于 0。为了解决这个问题，我们提出了对 F-score 和 MCC 的稳健修正，即使在极度不平衡的情况下，TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为，并讨论了与 ROC 和精确率 - 召回率曲线的关联性，并提出了如何将它们与性能度量标准结合使用的建议。

Apr, 2024

具有 Karmic、阈值拟凸度量的二元分类

提出了两个关键特性：所谓的 Karmic 属性和阈值准凸性属性，表明 Bayes 最优分类器是正类条件概率的阈值函数，并借此结果通过新颖的阈值估计器提供了一个计算实际的插件分类器，并进一步提供了性能复杂度统计分析。

Jun, 2018

利用数据集限制实现实际目标

本篇论文提出通过使用数据集约束、使用斜面惩罚精确量化成本，并提出一种有效的算法来约束多个数据集上的多个目标，以处理训练集错误最小化目标外的其他真实目标。实验结果表明我们的方法的有效性。

Jun, 2016

最大化前 N 个的精度的代理函数

本文介绍了一些新的上界的拟合函数来优化 Precision@k 问题，并使用这些函数设计了新的感知机和随机梯度下降算法来优化这个问题。

May, 2015

不平衡分类问题的尖锐误差界限：少数类示例有多少个？

处理不平衡分类数据时，重新权衡损失函数可以在风险度量内平衡正负类的真实率。然而，现有结果未能充分解决不平衡分类框架中的一个主要挑战，即相对于整个样本空间，一个类别的尺寸微不足道，并且需要将风险函数按趋近于零的概率重新缩放。为了解决这一差距，我们在罕见类概率接近零的情况下提出了两个新的贡献：(1) 用于约束平衡实验风险最小化的非渐近快速概率界限，以及 (2) 平衡最近邻估计的一致上界。我们的发现更清楚地了解了类别加权在实际情况下的好处，并为该领域的进一步研究开辟了新的途径。

Oct, 2023