不平衡分类问题的尖锐误差界限：少数类示例有多少个？

Oct, 2023

不平衡分类问题的尖锐误差界限：少数类示例有多少个？

Sharp error bounds for imbalanced classification: how many examples in the minority class?

Anass Aghbalou, François Portier, Anne Sabourin

TL;DR处理不平衡分类数据时，重新权衡损失函数可以在风险度量内平衡正负类的真实率。然而，现有结果未能充分解决不平衡分类框架中的一个主要挑战，即相对于整个样本空间，一个类别的尺寸微不足道，并且需要将风险函数按趋近于零的概率重新缩放。为了解决这一差距，我们在罕见类概率接近零的情况下提出了两个新的贡献：(1) 用于约束平衡实验风险最小化的非渐近快速概率界限，以及 (2) 平衡最近邻估计的一致上界。我们的发现更清楚地了解了类别加权在实际情况下的好处，并为该领域的进一步研究开辟了新的途径。

Abstract

When dealing with imbalanced classification data, reweighting the loss function is a standard procedure allowing to equilibrate between the true positive and true negative rates within the →

imbalanced classification data reweighting loss function risk measure class-weighting

发现论文，激发创造

基于有效样本数的类别平衡损失

研究长尾数据在机器学习任务中的问题，并提出了使用 “有效样本数” 改进重新权重计算的类平衡损失方法来提高对长尾数据集的训练效果。在人工合成的长尾 CIFAR 数据集和大规模数据集 ImageNet 和 iNaturalist 上进行了全面的实验，并证明该方法能够显著提高长尾数据集上的网络表现。

Jan, 2019

学习无需集中注意力

通过小球假设，本文在不假定类成员和目标是有界函数或具有快速衰减尾部的情况下，对凸类和使用平方损失的经验风险最小化的性能进行了尖锐边界限制。得到的估计与问题的噪声水平正确比例，并且当应用于经典的有限场景时总是会改善已知的边界。

Jan, 2014

类别加权分类：权衡和健壮方法

本研究提出了一种针对不平衡分类问题的解决方案，使用加权损失按照正确分类对错误分类的影响程度进行损失估计，进而提出了鲁棒风险的概念，得出了特殊情况下的条件价值风险的鲁棒风险解法，同时这种解法可用于改善类条件风险。

May, 2020

统计学习的风险界限

本文提出一个通用的定理给出经验风险最小化器 (ERM) 风险的上界，并且通过采用一些方便的加权经验过程的浓度不等式扩展 Tsybakov 针对 ERM 风险下边缘条件的分析，以便处理一些测量分类器类 “大小” 的方式，特别地，当分类规则属于某个 VC 类且满足边缘条件时，我们推导出 ERM 的新风险上界，并讨论这些上界在极小化意义下的最优性。

Feb, 2007

不确定性中寻求合适的平衡

利用贝叶斯不确定性估计解决类别不平衡学习的问题，并且成功改进了面部验证、属性预测、数字 / 物体识别、皮肤病检测等六个基准数据集上的分类性能。

Jan, 2019

极小色散近似平衡权重：渐近性质和实用考虑

本文研究一种最小化权重的方法，它可以近似平衡协变量，提出了一种调整权重的算法并应用于实证研究，结果表明这种方法可以有效降低加权估计器的均方误差

May, 2017

不平衡学习中加权重和对数调整的统一概化分析

通过对失衡学习的概括分析和数据依赖性收缩等技术，建立了一个精细的不平衡学习泛化界限，进一步揭示了重新加权和逻辑调整的原理，并开发了一个基于理论洞察的原则学习算法。

Oct, 2023

通过分位数实现的受限分类和排名

本文提出了一种基于约束学习的新框架，可以通过在训练数据的子集上预测正 / 负例率来解决二分类器中的类不平衡问题，并避免了复杂的约束优化问题。该方法与模型无关且仅支出少量计算代价。在各种基准测试上的实验显示了与现有基准相比具有具有竞争性的性能。

Feb, 2018

不平衡分类问题的鲁棒性能指标

在不平衡分类问题中，传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健，因为当少数类占比接近 0 时，这些度量标准下的贝叶斯分类器的真正阳性率（TPR）也趋近于 0。为了解决这个问题，我们提出了对 F-score 和 MCC 的稳健修正，即使在极度不平衡的情况下，TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为，并讨论了与 ROC 和精确率 - 召回率曲线的关联性，并提出了如何将它们与性能度量标准结合使用的建议。

Apr, 2024

通过重要性加权对带噪声标签的数据进行分类

本文研究了一个分类问题，其中样本标签被随机损坏。我们解决了如何在有标签噪声的情况下最好地利用传统分类问题的丰富代理损失函数，通过重要性重新加权来使用任何代理损失函数进行带有噪声标签的分类，以及如何获得噪声率的问题。

Nov, 2014