MargCTGAN: 一种针对低样本情况的略微改进的 CTGAN
本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构,可以有效地模拟多种数据类型,包括连续和分类变量,并且通过对多项机器学习算法进行测试,在五个数据集上的表现令人印象深刻。
Feb, 2021
这篇论文提出了一种智能的多目标进化条件表格生成对抗网络(SMOE-CTGAN),通过将条件向量应用于训练来建模条件合成数据,并利用多目标优化的概念在披露风险和实用性之间取得平衡,发现在训练的早期阶段可以实现具有竞争性实用性和极低风险的合成数据集。
Apr, 2024
本文提出了一个级联表格生成对抗网络框架(CasTGAN),可生成更逼真的表格数据,模型能捕捉实际数据的限制和相关性,并通过对辅助学习者进行扰动来提高模型抵抗特定攻击的整体稳健性。
Jul, 2023
本文介绍了 Tabular GAN(TGAN),这是一种可以生成表格数据(例如医学或教育记录)的生成对抗网络,利用深度神经网络生成高质量和完全合成的表格,同时生成离散和连续变量。在三个数据集上评估我们的模型时,我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。
Nov, 2018
本篇论文设计了 TGAN 来处理离散与连续的表格数据,使用 7 个模拟数据集和 8 个真实数据集进行比较,结果表明 TGAN 在大多数的真实数据集上比贝叶斯方法表现更好,而其他深度学习方法则表现欠佳。
Jul, 2019
在大数据时代,访问丰富的数据来推动研究进展至关重要,然而在医疗领域,这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题,但现有模型通常需要大量数据进行训练,与我们解决数据稀缺的目标相矛盾。为了应对这一挑战,我们提出了一个新的框架,通过利用大型语言模型(LLMs)作为推广对抗网络(GAN)的优化器,并将数据生成过程作为上下文信息进行了改进,显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明,我们的模型在生成更高质量的合成数据用于后续任务时,保持真实数据的隐私方面优于几个最先进的模型。
Jun, 2024
合成数据生成已成为金融机构的重要课题,本研究提出了一种新的合成数据生成框架,将监督组件与元学习方法结合,为特定下游任务学习最佳混合分布的已有合成分布。
Sep, 2023
使用自编码生成对抗网络(GANs)和条件生成对抗网络(CTGAN),提出了一种生成综合医疗记录(包括胸部 X 光图像和结构化表格数据)的方法。通过将 GAN 模型的编码器与原始数据库中的图像进行组合,成功生成了多样的综合 X 光图像和表格数据的合成记录,并通过可视评估、间记录距离分布和分类任务评估了生成的数据库。该方法有潜力在不损害数据二次使用的情况下公开发布合成数据集。
Aug, 2023
介绍了一种针对表格数据生成的基于扩散的跨表合成器(CTSyn),通过整合异构表格数据、条件潜在扩散模型和类型特定解码器,从采样的潜在向量中重构不同数据类型的值,提高了合成功能和多样性,同时在下游机器学习任务中表现出对真实数据无法达到的性能提升,从而为合成数据生成建立了新的范式。
Jun, 2024
本文提出了 DP-CGANS,一个不同 ially private conditional GAN 框架,旨在生成逼真且保护隐私的表格数据,其通过数据变换、采样、条件和网络训练进行操作,特别考虑到变量依赖性等挑战,并在多个数据集上展示了模型优越性。
Jun, 2022