不平衡数据集学习的广义过采样及相关理论
不平衡数据和虚假关联是机器学习和数据科学中常见的挑战。本文介绍了 OPAL(使用人工生成的 LLM 数据进行过采样),一种系统的过采样方法,利用大型语言模型(LLMs)生成高质量的少数类别合成数据,与深度生成模型进行预测任务的合成数据生成方法有所不同,着重解决不平衡数据和虚假关联问题,并提出了新的理论来严格表征使用合成数据的益处,并展示了变压器在生成标签和协变量的高质量合成数据方面的能力。此外,我们进行了大量的数值实验,以证明我们提出的方法相较于一些代表性的替代方案更加有效。
Jun, 2024
本文提出了一种基于 k-means 聚类和 SMOTE 过采样的简单有效方法,可以避免产生噪音并有效地解决类内和类间不平衡的问题,在 71 个数据集上的实验结果表明,使用所提出的方法进行训练数据过采样可以提高分类结果,并且 k-means SMOTE 方法始终优于其他流行的过采样方法。
Nov, 2017
本文提出了一种结合 Borderline-Synthetic Minority Oversampling Techniques 和 Generative Adversarial Network 的混合过采样技术 (BSGAN),并在四个高度不平衡的数据集上进行了测试,结果表明 BSGAN 在过采样效应后创建了一个更多元化的数据集,其表现优于存在的边界 SMOTE 和基于 GAN 的过采样技术。
May, 2023
本文提出基于条件 Wasserstein GAN 的过采样方法,可对包含数字和分类变量的表格数据集进行有效建模,并通过辅助分类器损失函数特别关注下游分类任务。实证结果表明 GAN 基于过采样的竞争力。
Aug, 2020
引入了一种名为 SMOTENN 的新型重采样方法,它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起,从而解决了不平衡分类问题。实验结果表明,该方法在小型和中型数据集上优于替代重采样技术,并在大型数据集上达到了良好的效果且运行时间缩短。
Oct, 2023
本文提出了一种基于聚类的过采样方法(Clustering Based Oversampling),该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本,它在不影响多数派学习的基础上,利用少数派样本的分布结构改善了在类别不平衡数据上的学习,并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明,与其他合成数据采样技术相比,该方法在不同数据集上的评估指标上表现更好。
Nov, 2018
在这项研究中,我们确定了线性分类器(支持向量机)在高维度情况下的泛化曲线的确切分析表达式,并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明,涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验,我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。
May, 2024
这篇研究提出了一种生成单变量时间序列合成样本的新方法,通过使用过采样技术创建合成时间序列观测来改善预测模型的准确性,并在实验中证明了该方法优于全局模型和本地模型,提供了更好的权衡。
Apr, 2024
本研究旨在解决分类任务中不平衡数据的问题,并评估 SMOTE、ADASYN 和 GAN 技术在生成合成数据以解决类别不平衡和提高分类模型在低资源环境下的性能方面的适用性。
Jun, 2023
该研究提出了一种基于条件数据生成对抗网络 (CTGAN-RU) 的交通事故数据生成方法,通过数据平衡和合成数据生成,用于交通事故严重性建模,结果表明使用 CTGAN-RU 生成的合成数据在交通事故严重性建模中优于使用原始数据或其他采样方法生成的合成数据。
Apr, 2024