本文介绍了 Tabular GAN(TGAN),这是一种可以生成表格数据(例如医学或教育记录)的生成对抗网络,利用深度神经网络生成高质量和完全合成的表格,同时生成离散和连续变量。在三个数据集上评估我们的模型时,我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。
Nov, 2018
本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构,可以有效地模拟多种数据类型,包括连续和分类变量,并且通过对多项机器学习算法进行测试,在五个数据集上的表现令人印象深刻。
Feb, 2021
本文提出一种分布式生成对抗网络 (discGANs) 用于生成针对医疗保健领域的合成表格数据,特别是离散和连续医疗数据的分布建模。通过使用该方法,我们从原始的 2,027 个电子 ICU 数据集中生成了 249,000 个合成数据记录,并使用 Kolmogorov-Smirnov (KS) 检验和卡方检验评估了其机器学习效率和性能,结果显示 discGAN 能够生成与实际数据分布相似的数据。
Apr, 2023
提出了一种基于变分自编码器的模型,该模型以贝叶斯高斯混合模型为基础,在处理表格数据时能够更准确地表示潜在数据分布,同时具有更灵活的特性和更好的性能。
Apr, 2024
这篇论文提出了一种智能的多目标进化条件表格生成对抗网络(SMOE-CTGAN),通过将条件向量应用于训练来建模条件合成数据,并利用多目标优化的概念在披露风险和实用性之间取得平衡,发现在训练的早期阶段可以实现具有竞争性实用性和极低风险的合成数据集。
本文提出了一个级联表格生成对抗网络框架(CasTGAN),可生成更逼真的表格数据,模型能捕捉实际数据的限制和相关性,并通过对辅助学习者进行扰动来提高模型抵抗特定攻击的整体稳健性。
Jul, 2023
本文提出了 DP-CGANS,一个不同 ially private conditional GAN 框架,旨在生成逼真且保护隐私的表格数据,其通过数据变换、采样、条件和网络训练进行操作,特别考虑到变量依赖性等挑战,并在多个数据集上展示了模型优越性。
Jun, 2022
本研究论文介绍了一种用于密度建模和表格数据生成的基于树的生成模型,该模型提高了最新提案的建模能力,并提出了一种简化先前方法训练设置并显示提升一致性收敛性的训练算法。通过实验验证了我们方法在缺失数据插补和生成数据与真实数据对比方面的优质结果。
Aug, 2023
本文提出基于条件 Wasserstein GAN 的过采样方法,可对包含数字和分类变量的表格数据集进行有效建模,并通过辅助分类器损失函数特别关注下游分类任务。实证结果表明 GAN 基于过采样的竞争力。
Aug, 2020
本文介绍了一种新型生成对抗网络(GAN),用于综合包含连续、离散和二进制等各种特征的大规模表格数据库。 我们提出了一种联合处理二进制和离散特征的条件向量定义,并应用于训练生成器网络,使用具有跳过连接的三层深度残差神经网络的核心体系结构。此外,我们还开发了一种新的度量方法来跟踪权重向量上的突发扰动,并评估了我们提出的综合方法在六个基准制表数据库上的性能表现,结果表明我们的提出的 RccGAN 在准确性、稳定性和可靠性方面优于传统和现代的生成模型。
May, 2022