本文介绍了一种从不平衡数据集中构建分类器的方法,通过在少数类过抽样和多数类欠抽样的组合使用,可以在 ROC 空间中实现比 Ripper 方法和朴素贝叶斯更好的分类器性能。
Jun, 2011
本文提出了一种基于 k-means 聚类和 SMOTE 过采样的简单有效方法,可以避免产生噪音并有效地解决类内和类间不平衡的问题,在 71 个数据集上的实验结果表明,使用所提出的方法进行训练数据过采样可以提高分类结果,并且 k-means SMOTE 方法始终优于其他流行的过采样方法。
Nov, 2017
使用 Mixup 增强技术和 STEM 方法解决医学影像中不平衡数据问题,研究在乳腺癌问题上的应用效果,取得了较高的 AUC 值,并在机器学习分类器集成中展现了潜在潜力。
Nov, 2023
通过迭代数据混合的马尔科夫决策过程(MDP)来解决不平衡数据集的问题,并通过使用数据扩充策略训练一个数据扩充策略并设计一种奖励信号,探索分类器的不确定性并鼓励性能提升,不考虑分类器的收敛,从而展示了解决具有不同类别少数样本的不平衡数据集的潜力和前景。
Aug, 2023
引入了一种名为 SMOTENN 的新型重采样方法,它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起,从而解决了不平衡分类问题。实验结果表明,该方法在小型和中型数据集上优于替代重采样技术,并在大型数据集上达到了良好的效果且运行时间缩短。
Oct, 2023
SMOTE 是处理不平衡数据集的常见重平衡策略,它能通过复制原始少数样本来重新生成原始分布,同时在少数分布边界附近 SMOTE 密度消失,验证了常见的边界 SMOTE 策略。我们还介绍了两种新的 SMOTE 相关策略,并将其与最先进的重平衡程序进行比较。我们表明,只有在数据集高度不平衡时才需要重平衡策略,对于这样的数据集,SMOTE、我们的提议或欠采样程序是最佳策略。
Feb, 2024
提出一种基于 MixUp 正则化技术的平衡采样机制,称为 Balanced-MixUp,可以同时对训练数据进行正常(基于实例)和平衡(基于类)采样,使神经网络可以有效地学习高度不平衡的医学图像分类数据集。实验结果表明,Balanced-MixUp 优于其他常规采样方案和针对不平衡数据设计的损失函数。
Sep, 2021
本研究通过生成合成数据来平衡少数类别数据,以探究类别不平衡数据对深度学习模型的影响。我们提出一种优先选择高信息熵样本的技术,通过最大化生成合成样本在其类别正确区域的概率来增强机器学习算法的准确性和效率。实验结果显示我们技术在增强深度学习模型方面表现出卓越性能。
Jan, 2024
研究提出了一种新型的样本采样算法,“SMOTE-RUS-NC”,它可以通过结合三种不同的采样技术来实现数据的平衡处理,进而提高分类算法的性能,特别是能够在高度不平衡的数据集中表现出卓越的效果。
Aug, 2022
我们提出了一种统一的数据增强方法 BalanceMix,用于解决多标签分类中的类别不平衡和噪声问题。我们的方法包括两个样本策略,用于生成具有高多样性的少数类增强样本。它还在标签粒度上对多标签进行细分,将噪声标签归类为清晰、重新标记或不确定,以实现鲁棒优化。在三个基准数据集上进行的大量实验表明,BalanceMix 优于现有的最先进方法。我们在此 https 的网址上发布了代码。
Dec, 2023