Oct, 2023

不平衡分类问题的尖锐误差界限:少数类示例有多少个?

TL;DR处理不平衡分类数据时,重新权衡损失函数可以在风险度量内平衡正负类的真实率。然而,现有结果未能充分解决不平衡分类框架中的一个主要挑战,即相对于整个样本空间,一个类别的尺寸微不足道,并且需要将风险函数按趋近于零的概率重新缩放。为了解决这一差距,我们在罕见类概率接近零的情况下提出了两个新的贡献:(1) 用于约束平衡实验风险最小化的非渐近快速概率界限,以及 (2) 平衡最近邻估计的一致上界。我们的发现更清楚地了解了类别加权在实际情况下的好处,并为该领域的进一步研究开辟了新的途径。