基于条件 Wasserstein GAN 的表格数据过采样技术在不平衡学习中的应用

Aug, 2020

基于条件 Wasserstein GAN 的表格数据过采样技术在不平衡学习中的应用

Conditional Wasserstein GAN-based Oversampling of Tabular Data for Imbalanced Learning

Justin Engelmann, Stefan Lessmann

TL;DR本文提出基于条件 Wasserstein GAN 的过采样方法，可对包含数字和分类变量的表格数据集进行有效建模，并通过辅助分类器损失函数特别关注下游分类任务。实证结果表明 GAN 基于过采样的竞争力。

Abstract

class imbalance is a common problem in supervised learning and impedes the predictive performance of classification models. Popular countermeasures include →

class imbalance supervised learning oversampling generative adversarial networks tabular datasets

发现论文，激发创造

SOS：针对表格数据的基于得分的过采样

本论文在以往 score-based generative models 成功生成虚假图像的基础上，自主研发了在 tabular data 数据集上使用的 score-based 过采样方法，该方法采用自有的 score network，提出了两种生成方法，进一步使用 fine-tuning 方法改进，实验证明在 6 个数据集上，该方法均能优于其他过采样方法。

Jun, 2022

使用条件 GAN 建模表格数据

本篇论文设计了 TGAN 来处理离散与连续的表格数据，使用 7 个模拟数据集和 8 个真实数据集进行比较，结果表明 TGAN 在大多数的真实数据集上比贝叶斯方法表现更好，而其他深度学习方法则表现欠佳。

Jul, 2019

一种处理不平衡数据的生成式深度学习方法用于车祸严重程度建模

该研究提出了一种基于条件数据生成对抗网络 (CTGAN-RU) 的交通事故数据生成方法，通过数据平衡和合成数据生成，用于交通事故严重性建模，结果表明使用 CTGAN-RU 生成的合成数据在交通事故严重性建模中优于使用原始数据或其他采样方法生成的合成数据。

Apr, 2024

BSGAN: 一种用于不平衡模式识别的新型过采样技术

本文提出了一种结合 Borderline-Synthetic Minority Oversampling Techniques 和 Generative Adversarial Network 的混合过采样技术 (BSGAN)，并在四个高度不平衡的数据集上进行了测试，结果表明 BSGAN 在过采样效应后创建了一个更多元化的数据集，其表现优于存在的边界 SMOTE 和基于 GAN 的过采样技术。

May, 2023

CTAB-GAN: 有效的表格数据合成

本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构，可以有效地模拟多种数据类型，包括连续和分类变量，并且通过对多项机器学习算法进行测试，在五个数据集上的表现令人印象深刻。

Feb, 2021

使用生成对抗网络合成表格数据

本文介绍了 Tabular GAN（TGAN），这是一种可以生成表格数据（例如医学或教育记录）的生成对抗网络，利用深度神经网络生成高质量和完全合成的表格，同时生成离散和连续变量。在三个数据集上评估我们的模型时，我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。

Nov, 2018

使用差分隐私条件生成对抗网络改善在生成不平衡数据中的相关性捕捉

本文提出了 DP-CGANS，一个不同 ially private conditional GAN 框架，旨在生成逼真且保护隐私的表格数据，其通过数据变换、采样、条件和网络训练进行操作，特别考虑到变量依赖性等挑战，并在多个数据集上展示了模型优越性。

Jun, 2022

评估 GAN 生成的合成表格数据在类别平衡和低资源环境下的实用性

本研究旨在解决分类任务中不平衡数据的问题，并评估 SMOTE、ADASYN 和 GAN 技术在生成合成数据以解决类别不平衡和提高分类模型在低资源环境下的性能方面的适用性。

Jun, 2023

高效的混合过采样和智能欠采样用于不平衡大数据分类

引入了一种名为 SMOTENN 的新型重采样方法，它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起，从而解决了不平衡分类问题。实验结果表明，该方法在小型和中型数据集上优于替代重采样技术，并在大型数据集上达到了良好的效果且运行时间缩短。

Oct, 2023

基于惩罚性最优传递网络的数据表生成建模

通过提供理论和实证的证据，我们的研究提出了一种名为 POTNet 的生成深度神经网络，它基于一个新颖、稳健、可解释的边际惩罚 Wasserstein 损失函数（MPW）来有效地建模包含类别和连续特征的表格数据，并能在子特征集合上进行条件建模，从而实现了在大规模合成数据生成过程中与最先进的生成模型相比数个数量级的加速。

Feb, 2024