使用条件 GAN 建模表格数据

Jul, 2019

Modeling Tabular data using Conditional GAN

Lei Xu, Maria Skoularidou, Alfredo Cuesta-Infante, Kalyan Veeramachaneni

TL;DR本篇论文设计了 TGAN 来处理离散与连续的表格数据，使用 7 个模拟数据集和 8 个真实数据集进行比较，结果表明 TGAN 在大多数的真实数据集上比贝叶斯方法表现更好，而其他深度学习方法则表现欠佳。

Abstract

Modeling the probability distribution of rows in tabular data and generating realistic synthetic data is a non-trivial task. tabular data

tabular data synthetic data conditional generative adversarial network bayesian network deep learning

发现论文，激发创造

使用生成对抗网络合成表格数据

本文介绍了 Tabular GAN（TGAN），这是一种可以生成表格数据（例如医学或教育记录）的生成对抗网络，利用深度神经网络生成高质量和完全合成的表格，同时生成离散和连续变量。在三个数据集上评估我们的模型时，我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。

Nov, 2018

CTAB-GAN: 有效的表格数据合成

本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构，可以有效地模拟多种数据类型，包括连续和分类变量，并且通过对多项机器学习算法进行测试，在五个数据集上的表现令人印象深刻。

Feb, 2021

分布式条件 GAN（discGAN）用于合成医疗保健数据生成

本文提出一种分布式生成对抗网络 (discGANs) 用于生成针对医疗保健领域的合成表格数据，特别是离散和连续医疗数据的分布建模。通过使用该方法，我们从原始的 2,027 个电子 ICU 数据集中生成了 249,000 个合成数据记录，并使用 Kolmogorov-Smirnov (KS) 检验和卡方检验评估了其机器学习效率和性能，结果显示 discGAN 能够生成与实际数据分布相似的数据。

Apr, 2023

一个改进的表格数据生成器与 VAE-GMM 集成

提出了一种基于变分自编码器的模型，该模型以贝叶斯高斯混合模型为基础，在处理表格数据时能够更准确地表示潜在数据分布，同时具有更灵活的特性和更好的性能。

Apr, 2024

多目标进化生成式对抗网络用于表格数据合成

这篇论文提出了一种智能的多目标进化条件表格生成对抗网络（SMOE-CTGAN），通过将条件向量应用于训练来建模条件合成数据，并利用多目标优化的概念在披露风险和实用性之间取得平衡，发现在训练的早期阶段可以实现具有竞争性实用性和极低风险的合成数据集。

Apr, 2024

CasTGAN: 级联生成对抗网络用于逼真的表格数据合成

本文提出了一个级联表格生成对抗网络框架（CasTGAN），可生成更逼真的表格数据，模型能捕捉实际数据的限制和相关性，并通过对辅助学习者进行扰动来提高模型抵抗特定攻击的整体稳健性。

Jul, 2023

使用差分隐私条件生成对抗网络改善在生成不平衡数据中的相关性捕捉

本文提出了 DP-CGANS，一个不同 ially private conditional GAN 框架，旨在生成逼真且保护隐私的表格数据，其通过数据变换、采样、条件和网络训练进行操作，特别考虑到变量依赖性等挑战，并在多个数据集上展示了模型优越性。

Jun, 2022

生成森林

本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型，该模型提高了最新提案的建模能力，并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。

Aug, 2023

基于条件 Wasserstein GAN 的表格数据过采样技术在不平衡学习中的应用

本文提出基于条件 Wasserstein GAN 的过采样方法，可对包含数字和分类变量的表格数据集进行有效建模，并通过辅助分类器损失函数特别关注下游分类任务。实证结果表明 GAN 基于过采样的竞争力。

Aug, 2020

RCC-GAN: 规则化的混合条件 GAN 用于大规模表格数据综合

本文介绍了一种新型生成对抗网络（GAN），用于综合包含连续、离散和二进制等各种特征的大规模表格数据库。我们提出了一种联合处理二进制和离散特征的条件向量定义，并应用于训练生成器网络，使用具有跳过连接的三层深度残差神经网络的核心体系结构。此外，我们还开发了一种新的度量方法来跟踪权重向量上的突发扰动，并评估了我们提出的综合方法在六个基准制表数据库上的性能表现，结果表明我们的提出的 RccGAN 在准确性、稳定性和可靠性方面优于传统和现代的生成模型。

May, 2022