NIPSNov, 2018

不均衡数据的聚类和学习

TL;DR本文提出了一种基于聚类的过采样方法(Clustering Based Oversampling),该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本,它在不影响多数派学习的基础上,利用少数派样本的分布结构改善了在类别不平衡数据上的学习,并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明,与其他合成数据采样技术相比,该方法在不同数据集上的评估指标上表现更好。