TabuLa: 利用语言模型进行表格数据合成

Oct, 2023

TabuLa: 利用语言模型进行表格数据合成

TabuLa: Harnessing Language Models for Tabular Data Synthesis

Zilong Zhao, Robert Birke, Lydia Chen

TL;DR通过提出 Tabula，使用语言模型结构的表格数据合成器，我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性，并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外，我们提出了一种令牌序列压缩策略，可显著减少训练时间同时保持合成数据的质量。实验证明，使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外，之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型，而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明，Tabula 相较于当前基于 LLMs 的最先进算法而言，平均每个时期减少 46.2% 的训练时间，并始终获得更高的合成数据效用。

Abstract

Given the ubiquitous use of tabular data in industries and the growing concerns in data privacy and security, tabular data synthesis emerges as a critical research area. The recent state-of-the-art methods show t

tabular data synthesis large language models curse of dimensionality token sequence compression data privacy and security

发现论文，激发创造

基于语言建模的表格数据大规模迁移学习

通过提取 TabLib 语料库中的一个大规模高质量训练数据集，我们针对表格数据预测问题，使用 Llama 3-8B 大型语言模型（LLM）进行微调，并采用一种新颖的填充和注意力机制，实现了在未见过的表格上的零样本准确率超过随机猜测 15 个百分点以上的 TabuLa-8B，以及在少样本情况下比 XGBoost 和 TabPFN 模型更准确的能力。

Jun, 2024

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024

LLM 在合成表格数据生成中天生出色吗？

大语言模型在生成合成文本和图像方面表现出色；然而，在生成表格数据方面，它们的潜力相对较少。本文展示了使用大语言模型，无论是原样使用还是传统的微调后使用，作为合成表格生成器是明显不足的。通过使用排列注意力，我们展示了如何使大语言模型克服其中的一些缺陷。

Jun, 2024

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023

大型语言模型在表格数据上的应用 -- 综述

综述中介绍了大规模语言建模在表格数据建模相关任务中的应用，包括预测、表格数据合成、问答和表格理解。通过归纳最新进展和总结数据集、度量标准和方法论，本综述发现了现有领域文献的优势、局限性、未开发的领域和研究间隙，并提供了相关代码和数据集的参考。期望以此为读者提供有关参考和深入见解，为他们在这个重要且快速进展的领域中有效应对挑战提供必备的工具和知识。

Feb, 2024

MALLM-GAN：用于合成表格数据的多智能体大型语言模型生成对抗网络

在大数据时代，访问丰富的数据来推动研究进展至关重要，然而在医疗领域，这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题，但现有模型通常需要大量数据进行训练，与我们解决数据稀缺的目标相矛盾。为了应对这一挑战，我们提出了一个新的框架，通过利用大型语言模型（LLMs）作为推广对抗网络（GAN）的优化器，并将数据生成过程作为上下文信息进行了改进，显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明，我们的模型在生成更高质量的合成数据用于后续任务时，保持真实数据的隐私方面优于几个最先进的模型。

Jun, 2024

使用语言模型进行私密生成表格数据

提出一种方法将表格中的每一行视为句子，并使用差分隐私训练语言模型，以实现在多个数据集上建模表格数据的竞争结果。

Jun, 2023

使用预训练语言模型建模表格数据

通过引入预训练语言模型（PTM）和三个处理阶段（MT、MF、CF），提出了一种新的名为 PTab 的框架，以将预训练模型用于建模表格数据，并取得比现有技术更好的分类效果。

Sep, 2022

LaTable: 大型表格模型的探索

构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下，在实例内分布生成方面胜过基线，并在生成超出分布的数据集时表现更好。

Jun, 2024

TableLLM：在真实办公场景中让 LLMs 能够操作表格数据

TableLLM 是一个具有 130 亿参数的强大的大型语言模型，专门用于高效处理嵌入在文件或电子表格中的表格数据操作任务，适用于实际的办公场景。我们提出了一种远程监督方法用于训练，包括推理过程扩展策略，有效帮助训练语言模型理解推理模式，以及交叉验证策略，确保自动生成的数据的质量。通过自行构建的评估管道和基准测试来评估 TableLLM 的性能，可以处理文件和电子表格格式，并突出显示了 TableLLM 与各种现有的通用型和面向表格数据的语言模型相比的优势。我们已公开发布了模型检查点、源代码、基准测试和用于用户交互的网络应用程序。

Mar, 2024