基于语言建模的表格数据大规模迁移学习

Jun, 2024

基于语言建模的表格数据大规模迁移学习

Large Scale Transfer Learning for Tabular Data via Language Modeling

Josh Gardner, Juan C. Perdomo, Ludwig Schmidt

TL;DR通过提取 TabLib 语料库中的一个大规模高质量训练数据集，我们针对表格数据预测问题，使用 Llama 3-8B 大型语言模型（LLM）进行微调，并采用一种新颖的填充和注意力机制，实现了在未见过的表格上的零样本准确率超过随机猜测 15 个百分点以上的 TabuLa-8B，以及在少样本情况下比 XGBoost 和 TabPFN 模型更准确的能力。

Abstract

tabular data -- structured, heterogeneous, spreadsheet-style data with rows and columns -- is widely used in practice across many domains. However, while recent foundation models have reduced the need for developing task-specific datasets and predictors in domains such as language mode

tabular data language model tabula-8b tabular prediction transfer learning

发现论文，激发创造

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024

TabuLa: 利用语言模型进行表格数据合成

通过提出 Tabula，使用语言模型结构的表格数据合成器，我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性，并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外，我们提出了一种令牌序列压缩策略，可显著减少训练时间同时保持合成数据的质量。实验证明，使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外，之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型，而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明，Tabula 相较于当前基于 LLMs 的最先进算法而言，平均每个时期减少 46.2% 的训练时间，并始终获得更高的合成数据效用。

Oct, 2023

提升预训练语言模型在表格预测任务中的性能

TP-BERTa 是一种专门用于表格数据预测的预训练语言模型，通过将数值特征值转换为离散的高维标记，并使用内部特征注意方法将特征值与相应的特征名称相结合，TP-BERTa 在典型的表格数据领域中在表格 DNN 中表现卓越，并与梯度提升决策树模型具备竞争力。

Mar, 2024

UniPredict：大型语言模型是通用表格预测模型

利用生成模型和大型语言模型，该研究提出了一种名为 UniPredict 的通用表格数据预测模型，在广泛的数据集上展示了优越性能，并在少样本学习中快速适应新任务，为开发基于数据规模学习且适用于各种预测任务的通用表格数据预测系统提供了新的思路。

Oct, 2023

使用预训练语言模型建模表格数据

通过引入预训练语言模型（PTM）和三个处理阶段（MT、MF、CF），提出了一种新的名为 PTab 的框架，以将预训练模型用于建模表格数据，并取得比现有技术更好的分类效果。

Sep, 2022

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023

大型语言模型在表格数据上的应用 -- 综述

综述中介绍了大规模语言建模在表格数据建模相关任务中的应用，包括预测、表格数据合成、问答和表格理解。通过归纳最新进展和总结数据集、度量标准和方法论，本综述发现了现有领域文献的优势、局限性、未开发的领域和研究间隙，并提供了相关代码和数据集的参考。期望以此为读者提供有关参考和深入见解，为他们在这个重要且快速进展的领域中有效应对挑战提供必备的工具和知识。

Feb, 2024

TabLLM：基于大型语言模型的小样本表格数据分类

通过将表格数据序列化为自然语言字符串和分类问题简述作为输入，使用大型语言模型进行零样本和小样本分类数据的研究，并评估了几种序列化方法，发现这种方法在多个基准数据集上优于以前的深度学习分类方法。

Oct, 2022

LaTable: 大型表格模型的探索

构建更好的零样本和少样本生成能力的生成式表格基础模型 LaTable 在有限样本的条件下，在实例内分布生成方面胜过基线，并在生成超出分布的数据集时表现更好。

Jun, 2024

表格处理的大语言模型：调查报告

通过对大型语言模型（LLMs）在表格任务方面的应用进行全面的概述，本文除了涵盖传统的表格问答（Table QA）和事实验证等领域，还强调了表格操作和高级表格数据分析等新方面，并介绍了 LLMs 中的指导调优、提示和基于代理的方法，同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。

Feb, 2024