MargCTGAN: 一种针对低样本情况的略微改进的 CTGAN

ICMLJul, 2023

MargCTGAN: 一种针对低样本情况的略微改进的 CTGAN

MargCTGAN: A "Marginally'' Better CTGAN for the Low Sample Regime

Tejumade Afonja, Dingfan Chen, Mario Fritz

TL;DR本文讨论如何生成真实和有用的合成数据，同时针对现有的合成数据生成评估方法存在的不足进行了针对性的改进，提出了一种基于 CTGAN 模型并添加自适应特征匹配的合成数据生成方法 MargCTGAN。

Abstract

The potential of realistic and useful synthetic data is significant. However, current evaluation methods for synthetic tabular data generation

synthetic data tabular data generation evaluation marginal distribution ctgan model

发现论文，激发创造

CTAB-GAN: 有效的表格数据合成

本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构，可以有效地模拟多种数据类型，包括连续和分类变量，并且通过对多项机器学习算法进行测试，在五个数据集上的表现令人印象深刻。

Feb, 2021

多目标进化生成式对抗网络用于表格数据合成

这篇论文提出了一种智能的多目标进化条件表格生成对抗网络（SMOE-CTGAN），通过将条件向量应用于训练来建模条件合成数据，并利用多目标优化的概念在披露风险和实用性之间取得平衡，发现在训练的早期阶段可以实现具有竞争性实用性和极低风险的合成数据集。

Apr, 2024

CasTGAN: 级联生成对抗网络用于逼真的表格数据合成

本文提出了一个级联表格生成对抗网络框架（CasTGAN），可生成更逼真的表格数据，模型能捕捉实际数据的限制和相关性，并通过对辅助学习者进行扰动来提高模型抵抗特定攻击的整体稳健性。

Jul, 2023

使用生成对抗网络合成表格数据

本文介绍了 Tabular GAN（TGAN），这是一种可以生成表格数据（例如医学或教育记录）的生成对抗网络，利用深度神经网络生成高质量和完全合成的表格，同时生成离散和连续变量。在三个数据集上评估我们的模型时，我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。

Nov, 2018

使用条件 GAN 建模表格数据

本篇论文设计了 TGAN 来处理离散与连续的表格数据，使用 7 个模拟数据集和 8 个真实数据集进行比较，结果表明 TGAN 在大多数的真实数据集上比贝叶斯方法表现更好，而其他深度学习方法则表现欠佳。

Jul, 2019

MALLM-GAN：用于合成表格数据的多智能体大型语言模型生成对抗网络

在大数据时代，访问丰富的数据来推动研究进展至关重要，然而在医疗领域，这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题，但现有模型通常需要大量数据进行训练，与我们解决数据稀缺的目标相矛盾。为了应对这一挑战，我们提出了一个新的框架，通过利用大型语言模型（LLMs）作为推广对抗网络（GAN）的优化器，并将数据生成过程作为上下文信息进行了改进，显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明，我们的模型在生成更高质量的合成数据用于后续任务时，保持真实数据的隐私方面优于几个最先进的模型。

Jun, 2024

一种用于表格数据的有监督生成优化方法

合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Sep, 2023

使用两个生成对抗网络的混合图像 - 表格数据的合成数据生成方法

使用自编码生成对抗网络（GANs）和条件生成对抗网络（CTGAN），提出了一种生成综合医疗记录（包括胸部 X 光图像和结构化表格数据）的方法。通过将 GAN 模型的编码器与原始数据库中的图像进行组合，成功生成了多样的综合 X 光图像和表格数据的合成记录，并通过可视评估、间记录距离分布和分类任务评估了生成的数据库。该方法有潜力在不损害数据二次使用的情况下公开发布合成数据集。

Aug, 2023

CTSyn: 跨表数据生成的基础模型

介绍了一种针对表格数据生成的基于扩散的跨表合成器（CTSyn），通过整合异构表格数据、条件潜在扩散模型和类型特定解码器，从采样的潜在向量中重构不同数据类型的值，提高了合成功能和多样性，同时在下游机器学习任务中表现出对真实数据无法达到的性能提升，从而为合成数据生成建立了新的范式。

Jun, 2024

使用差分隐私条件生成对抗网络改善在生成不平衡数据中的相关性捕捉

本文提出了 DP-CGANS，一个不同 ially private conditional GAN 框架，旨在生成逼真且保护隐私的表格数据，其通过数据变换、采样、条件和网络训练进行操作，特别考虑到变量依赖性等挑战，并在多个数据集上展示了模型优越性。

Jun, 2022