May, 2024

恢复平衡:基于原则的数据欠采样 / 过采样用于最佳分类

TL;DR在这项研究中,我们确定了线性分类器(支持向量机)在高维度情况下的泛化曲线的确切分析表达式,并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明,涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验,我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。