MALLM-GAN：用于合成表格数据的多智能体大型语言模型生成对抗网络

Jun, 2024

MALLM-GAN：用于合成表格数据的多智能体大型语言模型生成对抗网络

MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data

Yaobin Ling, Xiaoqian Jiang, Yejin Kim

TL;DR在大数据时代，访问丰富的数据来推动研究进展至关重要，然而在医疗领域，这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题，但现有模型通常需要大量数据进行训练，与我们解决数据稀缺的目标相矛盾。为了应对这一挑战，我们提出了一个新的框架，通过利用大型语言模型（LLMs）作为推广对抗网络（GAN）的优化器，并将数据生成过程作为上下文信息进行了改进，显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明，我们的模型在生成更高质量的合成数据用于后续任务时，保持真实数据的隐私方面优于几个最先进的模型。

Abstract

In the era of big data, access to abundant data is crucial for driving research forward. However, such data is often inaccessible due to privacy concerns or high costs, particularly in healthcare domain. Generati

big data access synthetic data privacy concerns data scarcity

发现论文，激发创造

使用生成对抗网络合成表格数据

本文介绍了 Tabular GAN（TGAN），这是一种可以生成表格数据（例如医学或教育记录）的生成对抗网络，利用深度神经网络生成高质量和完全合成的表格，同时生成离散和连续变量。在三个数据集上评估我们的模型时，我们发现 TGAN 在捕捉列之间的相关性和扩展大型数据集方面都优于传统的统计生成模型。

Nov, 2018

使用大型语言模型的差分隐私表格数据合成

使用预训练的大型语言模型（LLMs），DP-LLMTGen 引入了一种新的框架来进行差分私有表格数据合成，通过微调过程模拟敏感数据集并生成多样的合成数据，有效地解决了实际挑战。

Jun, 2024

TabuLa: 利用语言模型进行表格数据合成

通过提出 Tabula，使用语言模型结构的表格数据合成器，我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性，并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外，我们提出了一种令牌序列压缩策略，可显著减少训练时间同时保持合成数据的质量。实验证明，使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外，之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型，而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明，Tabula 相较于当前基于 LLMs 的最先进算法而言，平均每个时期减少 46.2% 的训练时间，并始终获得更高的合成数据效用。

Oct, 2023

LLM 在合成表格数据生成中天生出色吗？

大语言模型在生成合成文本和图像方面表现出色；然而，在生成表格数据方面，它们的潜力相对较少。本文展示了使用大语言模型，无论是原样使用还是传统的微调后使用，作为合成表格生成器是明显不足的。通过使用排列注意力，我们展示了如何使大语言模型克服其中的一些缺陷。

Jun, 2024

大型语言模型生成合成表格数据的群组提示

通过使用大型语言模型（Large Language Models，LLMs）生成合成数据解决分类不平衡问题，在 CSV 格式中采用新颖的分组提示方法，利用 LLMs 的上下文学习能力生成满足目标数据集要求和特征的数据，并通过随机词替换策略提高处理单调分类值的准确性和代表性。在八个真实公共数据集上广泛验证我们的方法，取得了优于现有方法的下游分类和回归任务性能，同时保持特征间的相关性并提高标识的效率。该研究对于解决机器学习应用中关于表格数据生成和处理类别不平衡的关键挑战具有重要意义。

Apr, 2024

CasTGAN: 级联生成对抗网络用于逼真的表格数据合成

本文提出了一个级联表格生成对抗网络框架（CasTGAN），可生成更逼真的表格数据，模型能捕捉实际数据的限制和相关性，并通过对辅助学习者进行扰动来提高模型抵抗特定攻击的整体稳健性。

Jul, 2023

基于生成对抗网络的数据合成

该研究提出了一种名为 table-GAN 的方法，使用生成对抗网络（GANs）合成伪造表格，用于保证数据匿名性和模型兼容性。实验证明，该方法在隐私和模型兼容性之间取得平衡，同时解决了数据泄露问题。

Jun, 2018

衡量和减轻表格生成模型的隐私风险

合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起，并通过在表格综合机上实施全面的实证分析，突出了五种最先进表格综合机的实用 - 隐私权衡，提出了一个新的差分隐私表格潜在扩散模型，称为 DP-TLDM，能够在保持可比较的隐私风险水平的同时，显著提高合成数据的实用性。

Mar, 2024

CTAB-GAN: 有效的表格数据合成

本文主要介绍了一种名为 CTAB-GAN 的条件表格 GAN 架构，可以有效地模拟多种数据类型，包括连续和分类变量，并且通过对多项机器学习算法进行测试，在五个数据集上的表现令人印象深刻。

Feb, 2021

在差分隐私下生成表格数据集

优化生成模型的质量和隐私之间的平衡，通过引入关注机制学习可逆的表格表示和差分隐私扩散模型来合成高质量的表格数据。

Aug, 2023