基于条件 Wasserstein GAN 的表格数据过采样技术在不平衡学习中的应用
本论文在以往 score-based generative models 成功生成虚假图像的基础上,自主研发了在 tabular data 数据集上使用的 score-based 过采样方法,该方法采用自有的 score network,提出了两种生成方法,进一步使用 fine-tuning 方法改进,实验证明在 6 个数据集上,该方法均能优于其他过采样方法。
Jun, 2022
本篇论文设计了 TGAN 来处理离散与连续的表格数据,使用 7 个模拟数据集和 8 个真实数据集进行比较,结果表明 TGAN 在大多数的真实数据集上比贝叶斯方法表现更好,而其他深度学习方法则表现欠佳。
Jul, 2019
该研究提出了一种基于条件数据生成对抗网络 (CTGAN-RU) 的交通事故数据生成方法,通过数据平衡和合成数据生成,用于交通事故严重性建模,结果表明使用 CTGAN-RU 生成的合成数据在交通事故严重性建模中优于使用原始数据或其他采样方法生成的合成数据。
Apr, 2024
本文提出了一种结合 Borderline-Synthetic Minority Oversampling Techniques 和 Generative Adversarial Network 的混合过采样技术 (BSGAN),并在四个高度不平衡的数据集上进行了测试,结果表明 BSGAN 在过采样效应后创建了一个更多元化的数据集,其表现优于存在的边界 SMOTE 和基于 GAN 的过采样技术。
May, 2023
本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构,可以有效地模拟多种数据类型,包括连续和分类变量,并且通过对多项机器学习算法进行测试,在五个数据集上的表现令人印象深刻。
Feb, 2021
本文介绍了 Tabular GAN(TGAN),这是一种可以生成表格数据(例如医学或教育记录)的生成对抗网络,利用深度神经网络生成高质量和完全合成的表格,同时生成离散和连续变量。在三个数据集上评估我们的模型时,我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。
Nov, 2018
本文提出了 DP-CGANS,一个不同 ially private conditional GAN 框架,旨在生成逼真且保护隐私的表格数据,其通过数据变换、采样、条件和网络训练进行操作,特别考虑到变量依赖性等挑战,并在多个数据集上展示了模型优越性。
Jun, 2022
本研究旨在解决分类任务中不平衡数据的问题,并评估 SMOTE、ADASYN 和 GAN 技术在生成合成数据以解决类别不平衡和提高分类模型在低资源环境下的性能方面的适用性。
Jun, 2023
引入了一种名为 SMOTENN 的新型重采样方法,它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起,从而解决了不平衡分类问题。实验结果表明,该方法在小型和中型数据集上优于替代重采样技术,并在大型数据集上达到了良好的效果且运行时间缩短。
Oct, 2023
通过提供理论和实证的证据,我们的研究提出了一种名为 POTNet 的生成深度神经网络,它基于一个新颖、稳健、可解释的边际惩罚 Wasserstein 损失函数(MPW)来有效地建模包含类别和连续特征的表格数据,并能在子特征集合上进行条件建模,从而实现了在大规模合成数据生成过程中与最先进的生成模型相比数个数量级的加速。
Feb, 2024