Jun, 2024

MALLM-GAN:用于合成表格数据的多智能体大型语言模型生成对抗网络

TL;DR在大数据时代,访问丰富的数据来推动研究进展至关重要,然而在医疗领域,这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题,但现有模型通常需要大量数据进行训练,与我们解决数据稀缺的目标相矛盾。为了应对这一挑战,我们提出了一个新的框架,通过利用大型语言模型(LLMs)作为推广对抗网络(GAN)的优化器,并将数据生成过程作为上下文信息进行了改进,显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明,我们的模型在生成更高质量的合成数据用于后续任务时,保持真实数据的隐私方面优于几个最先进的模型。