SMOTE: 合成少数类过采样技术
引入了一种名为 SMOTENN 的新型重采样方法,它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起,从而解决了不平衡分类问题。实验结果表明,该方法在小型和中型数据集上优于替代重采样技术,并在大型数据集上达到了良好的效果且运行时间缩短。
Oct, 2023
SMOTE 是处理不平衡数据集的常见重平衡策略,它能通过复制原始少数样本来重新生成原始分布,同时在少数分布边界附近 SMOTE 密度消失,验证了常见的边界 SMOTE 策略。我们还介绍了两种新的 SMOTE 相关策略,并将其与最先进的重平衡程序进行比较。我们表明,只有在数据集高度不平衡时才需要重平衡策略,对于这样的数据集,SMOTE、我们的提议或欠采样程序是最佳策略。
Feb, 2024
研究提出了一种新型的样本采样算法,“SMOTE-RUS-NC”,它可以通过结合三种不同的采样技术来实现数据的平衡处理,进而提高分类算法的性能,特别是能够在高度不平衡的数据集中表现出卓越的效果。
Aug, 2022
通过增强传统的 SMOTE 方法并与 Mixup 结合,提出了一种统一的深度学习数据增强框架,实验结果表明该方法在深度不平衡分类任务上具有最先进的性能,并且在极度不平衡数据上也达到了优异的效果。
Aug, 2023
本文分析了大量过采样方法,并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明,所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此,我们认为当前形式和方法的过采样不可靠,并在真实世界应用中应避免使用。
Feb, 2022
本文提出了一种基于 k-means 聚类和 SMOTE 过采样的简单有效方法,可以避免产生噪音并有效地解决类内和类间不平衡的问题,在 71 个数据集上的实验结果表明,使用所提出的方法进行训练数据过采样可以提高分类结果,并且 k-means SMOTE 方法始终优于其他流行的过采样方法。
Nov, 2017
本文提出了量子 SMOTE 方法,该方法利用量子计算技术解决了机器学习数据集中存在的类别不平衡问题。通过使用交换测试和量子旋转等量子过程,Quantum-SMOTE 生成合成数据点,从而使得少数类数据点能够产生合成实例,而无需依赖邻近性。算法引入了旋转角度、少数类比例和分割因子等超参数,从而使合成数据生成过程具备更大的控制性和对特定数据集需求的定制化。通过在 TelecomChurn 公共数据集上与随机森林和逻辑回归等两个主要分类算法进行比较评估,该方法在不同比例的合成数据下的影响得到了验证。
Feb, 2024
本文探讨了几种多标签不平衡分类问题中的过采样技术,证明了通过使用合成采样技术,可以提高恶性程度预测的每个类的性能敏感性,寻找合适的低层次图像特征和随机森林分类器对数据集进行分类,可以对多标签不平衡分类问题提供信息和指导。
Jul, 2018
本研究运用数据流方法挖掘数据,构建决策树模型,通过软件构建过程中从源代码中获得的软件度量预测软件构建结果。使用 SMOTE 过采样算法合成新数据,并发现少量可用软件度量对预测构建结果具有重要意义。通过数据流处理,分类准确度可以持续提高至 80%,但由于数据在两个类别之间的分布而产生一些偏差。
Jul, 2014
基于决策边界和样本接近性关系的一种新的分类过采样方法,通过关注关键样本与决策超平面之间的距离以及周围样本的密度,提供了一种适应性过采样策略,在金融欺诈数据集上得出了可以提高少数类别分类准确性的有效和稳健的解决方案。
Feb, 2024