大型语言模型生成合成表格数据的群组提示

Apr, 2024

大型语言模型生成合成表格数据的群组提示

Group-wise Prompting for Synthetic Tabular Data Generation using Large Language Models

Jinhee Kim, Taesung Kim, Jaegul Choo

TL;DR通过使用大型语言模型（Large Language Models，LLMs）生成合成数据解决分类不平衡问题，在 CSV 格式中采用新颖的分组提示方法，利用 LLMs 的上下文学习能力生成满足目标数据集要求和特征的数据，并通过随机词替换策略提高处理单调分类值的准确性和代表性。在八个真实公共数据集上广泛验证我们的方法，取得了优于现有方法的下游分类和回归任务性能，同时保持特征间的相关性并提高标识的效率。该研究对于解决机器学习应用中关于表格数据生成和处理类别不平衡的关键挑战具有重要意义。

Abstract

Generating realistic synthetic tabular data presents a critical challenge in machine learning. This study introduces a simple yet effective method employing large language models (LLMs) tailored to generate synth

synthetic tabular data large language models group-wise prompting method data imbalance problems monotonous categorical values

发现论文，激发创造

表格数据任务的自动提示生成系统

通过创新自动生成系统，本文提出了两种新方法：一种基于强化学习的算法用于识别和排序与任务相关的列，另一种基于单元格相似性的方法用于增强少样例选择，该方法在 66 个数据集上经过了广泛测试，并使用两个不同的大型语言模型（Google flan-t5-xxl 和 Mixtral 8x7B）在数据填充、错误检测和实体匹配三个下游任务中展现出改进的性能。

May, 2024

LLM 在合成表格数据生成中天生出色吗？

大语言模型在生成合成文本和图像方面表现出色；然而，在生成表格数据方面，它们的潜力相对较少。本文展示了使用大语言模型，无论是原样使用还是传统的微调后使用，作为合成表格生成器是明显不足的。通过使用排列注意力，我们展示了如何使大语言模型克服其中的一些缺陷。

Jun, 2024

利用大型语言模型解决数据中心任务

通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集，该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据，并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感，对于输入表中存在大量语法变化的任务，聚类选择技术优于随机选择基准模型。

Feb, 2024

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024

MALLM-GAN：用于合成表格数据的多智能体大型语言模型生成对抗网络

在大数据时代，访问丰富的数据来推动研究进展至关重要，然而在医疗领域，这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题，但现有模型通常需要大量数据进行训练，与我们解决数据稀缺的目标相矛盾。为了应对这一挑战，我们提出了一个新的框架，通过利用大型语言模型（LLMs）作为推广对抗网络（GAN）的优化器，并将数据生成过程作为上下文信息进行了改进，显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明，我们的模型在生成更高质量的合成数据用于后续任务时，保持真实数据的隐私方面优于几个最先进的模型。

Jun, 2024

TabuLa: 利用语言模型进行表格数据合成

通过提出 Tabula，使用语言模型结构的表格数据合成器，我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性，并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外，我们提出了一种令牌序列压缩策略，可显著减少训练时间同时保持合成数据的质量。实验证明，使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外，之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型，而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明，Tabula 相较于当前基于 LLMs 的最先进算法而言，平均每个时期减少 46.2% 的训练时间，并始终获得更高的合成数据效用。

Oct, 2023

使用大型语言模型的差分隐私表格数据合成

使用预训练的大型语言模型（LLMs），DP-LLMTGen 引入了一种新的框架来进行差分私有表格数据合成，通过微调过程模拟敏感数据集并生成多样的合成数据，有效地解决了实际挑战。

Jun, 2024

对大型语言模型在表格数据预测中的公平性调查

通过一系列的实验，我们发现大型语言模型在表格预测任务中往往会继承社会偏见，这从根源上影响了它们的公平性，并且通过标签反转等方法可以显著减少这些偏见。

Oct, 2023

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

使用语言模型进行私密生成表格数据

提出一种方法将表格中的每一行视为句子，并使用差分隐私训练语言模型，以实现在多个数据集上建模表格数据的竞争结果。

Jun, 2023