May, 2024

融合条件变分自编码器的 SMOTE 改进方法用于数据自适应噪声过滤

TL;DR通过使用 Variational Autoencoders (VAE) 来增强 SMOTE 算法,近期对生成神经网络模型的研究扩展了数据增广方法。在研究中发现,相对于传统模型的 SMOTE 算法,基于现代生成模型的增广方法无法在类别不平衡数据上取得显著的性能。对于这个生成模型在不均衡分类中的问题,我们通过引入一个框架来同时量化低维潜变量空间中数据点的密度,并结合类别标签和分类难度的信息。我们系统地排除了可能降低增广效果的数据点,并直接在数据空间中进行相邻样本的增广。对几个类别不平衡的数据集进行的实证研究表明,这一简单的过程创新性地提高了传统的 SMOTE 算法在深度学习模型上的效果。因此,我们得出结论,对于相对较少数量的数据点而言,对少数类数据的选择和数据空间内的插值是解决类别不平衡分类问题有益的。