大型语言模型在表格数据上的应用 -- 综述

Feb, 2024

大型语言模型在表格数据上的应用 -- 综述

Large Language Models on Tabular Data -- A Survey

Xi Fang, Weijie Xu, Fiona Anting Tan, Jiani Zhang, Ziqing Hu...

TL;DR综述中介绍了大规模语言建模在表格数据建模相关任务中的应用，包括预测、表格数据合成、问答和表格理解。通过归纳最新进展和总结数据集、度量标准和方法论，本综述发现了现有领域文献的优势、局限性、未开发的领域和研究间隙，并提供了相关代码和数据集的参考。期望以此为读者提供有关参考和深入见解，为他们在这个重要且快速进展的领域中有效应对挑战提供必备的工具和知识。

Abstract

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis,

large language modeling tabular data modeling prediction question answering table understanding

发现论文，激发创造

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024

表格处理的大语言模型：调查报告

通过对大型语言模型（LLMs）在表格任务方面的应用进行全面的概述，本文除了涵盖传统的表格问答（Table QA）和事实验证等领域，还强调了表格操作和高级表格数据分析等新方面，并介绍了 LLMs 中的指导调优、提示和基于代理的方法，同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。

Feb, 2024

用大型语言模型重新思考表格数据理解

通过对大型语言模型的研究，揭示了它们在解释和推理表格数据方面的能力，发现表格结构变化对模型性能的影响，提出了表格结构归一化的方法，并且比较了文本推理和符号推理，同时通过多个推理路径的聚合，取得了在 WIKITABLEQUESTIONS 任务上的最新成果。

Dec, 2023

基于语言建模的表格数据大规模迁移学习

通过提取 TabLib 语料库中的一个大规模高质量训练数据集，我们针对表格数据预测问题，使用 Llama 3-8B 大型语言模型（LLM）进行微调，并采用一种新颖的填充和注意力机制，实现了在未见过的表格上的零样本准确率超过随机猜测 15 个百分点以上的 TabuLa-8B，以及在少样本情况下比 XGBoost 和 TabPFN 模型更准确的能力。

Jun, 2024

知识融合与大型语言模型的趋势：方法、基准和应用的调查和分类

通过综述知识融入大型语言模型的趋势、方法分类、基准和应用，本文概述了该研究领域的全貌，并指出了未来的研究方向。

Nov, 2023

TabuLa: 利用语言模型进行表格数据合成

通过提出 Tabula，使用语言模型结构的表格数据合成器，我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性，并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外，我们提出了一种令牌序列压缩策略，可显著减少训练时间同时保持合成数据的质量。实验证明，使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外，之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型，而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明，Tabula 相较于当前基于 LLMs 的最先进算法而言，平均每个时期减少 46.2% 的训练时间，并始终获得更高的合成数据效用。

Oct, 2023

对大型语言模型在表格数据预测中的公平性调查

通过一系列的实验，我们发现大型语言模型在表格预测任务中往往会继承社会偏见，这从根源上影响了它们的公平性，并且通过标签反转等方法可以显著减少这些偏见。

Oct, 2023

大型语言模型的数据集：综述

该研究论文对大型语言模型数据集进行了综述和分类，包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面；此外还提供了现有数据集资源的综合评估，涵盖 8 个语言类别和 32 个领域，包括来自 444 个数据集的统计信息，共计超过 774.5 TB 的预训练语料库数据和 7 亿个实例的其他数据集数据；旨在为研究人员提供整个 LLM 文本数据集的全貌，并为未来的研究做出贡献。

Feb, 2024

TabLLM：基于大型语言模型的小样本表格数据分类

通过将表格数据序列化为自然语言字符串和分类问题简述作为输入，使用大型语言模型进行零样本和小样本分类数据的研究，并评估了几种序列化方法，发现这种方法在多个基准数据集上优于以前的深度学习分类方法。

Oct, 2022