重采样对不平衡分类准确性的影响
本文通过比较分析 40 个来自不同应用领域的数据集,研究了不平衡数据分类的各种因素对过采样和欠采样技术的有效性的影响,提出了基于性能度量的自动最优采样策略选择模型,可以在不同领域中选择最合适的方法。
Dec, 2021
本文分析了大量过采样方法,并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明,所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此,我们认为当前形式和方法的过采样不可靠,并在真实世界应用中应避免使用。
Feb, 2022
本文提出了一种基于聚类的过采样方法(Clustering Based Oversampling),该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本,它在不影响多数派学习的基础上,利用少数派样本的分布结构改善了在类别不平衡数据上的学习,并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明,与其他合成数据采样技术相比,该方法在不同数据集上的评估指标上表现更好。
Nov, 2018
在处理高度不平衡的标记分类任务中,选择训练数据的方式会对模型性能产生效果和效率方面上的权衡。在使用英语和阿拉伯语文本序列标记实验中,不同的训练数据选择方法带来了不同的效果和效率权衡;在对高度不平衡情况下的模型性能测试中,使用基于一次检索模型的测试数据过滤和训练数据选择同样重要。而变化的幅度取决于所研究的现象基础率。
Aug, 2022
在这项研究中,我们确定了线性分类器(支持向量机)在高维度情况下的泛化曲线的确切分析表达式,并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明,涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验,我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。
May, 2024
本研究系统地研究了类别不平衡对卷积神经网络分类性能的影响,并比较了几种解决该问题的常用方法。在使用三个基准数据集进行实验的过程中,研究者发现类别不平衡对分类性能有不利影响,而通过过采样的方法可以提高分类性能。同时,该研究还发现阈值补偿在一定场景下也能够提高分类性能。
Oct, 2017
研究提出了一种新型的样本采样算法,“SMOTE-RUS-NC”,它可以通过结合三种不同的采样技术来实现数据的平衡处理,进而提高分类算法的性能,特别是能够在高度不平衡的数据集中表现出卓越的效果。
Aug, 2022
引入了一种名为 SMOTENN 的新型重采样方法,它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起,从而解决了不平衡分类问题。实验结果表明,该方法在小型和中型数据集上优于替代重采样技术,并在大型数据集上达到了良好的效果且运行时间缩短。
Oct, 2023