关于表格问答的语言模型鲁棒性研究

Jun, 2024

关于表格问答的语言模型鲁棒性研究

On the Robustness of Language Models for Tabular Question Answering

Kushal Raj Bhandari, Sixue Xing, Soham Dan, Jianxi Gao

TL;DR通过评估 Large Language Models (LLMs) 在基于维基百科和财务报告的 Tabular Question Answering (TQA) 数据集上的表格理解能力，研究发现指令对性能有显著影响，新模型 Llama3 比之前的版本更具鲁棒性，但 WTQ 数据集存在数据污染和实际可靠性问题，需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进 LLMs 的可靠性。

Abstract

Large Language Models (LLMs), originally shown to ace various text comprehension tasks have also remarkably been shown to tackle table comprehension tasks without specific training. While previous research has explored LLM capabilities with tabular dataset tasks, our study assesses the influence of $\textit{→

large language models (llms)tabular comprehension in-context learning model scale domain biases

发现论文，激发创造

用大型语言模型重新思考表格数据理解

通过对大型语言模型的研究，揭示了它们在解释和推理表格数据方面的能力，发现表格结构变化对模型性能的影响，提出了表格结构归一化的方法，并且比较了文本推理和符号推理，同时通过多个推理路径的聚合，取得了在 WIKITABLEQUESTIONS 任务上的最新成果。

Dec, 2023

利用大型语言模型和检索加强生成来提高教科书问答任务

该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法，以处理复杂的语境和多模态数据，并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG，我们的架构在非图表多项选择题中相较于基线模型，在验证集上精度提升了 4.12%，在测试集上提升了 9.84%。

Feb, 2024

表格处理的大语言模型：调查报告

通过对大型语言模型（LLMs）在表格任务方面的应用进行全面的概述，本文除了涵盖传统的表格问答（Table QA）和事实验证等领域，还强调了表格操作和高级表格数据分析等新方面，并介绍了 LLMs 中的指导调优、提示和基于代理的方法，同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。

Feb, 2024

大型语言模型是少量样本的表格推理器

本文旨在研究大型语言模型在表格相关任务中的能力，发现当结合 “思维链” 提示时，大型语言模型可以在只有 1 个样本的情况下达到与某些 SotA 模型相当的表现。

Oct, 2022

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024

TAT-LLM：用于离散推理表格和文本数据的专用语言模型

我们开发了一个 TAT-LLM 语言模型来针对特定任务，该模型在 FinQA、TAT-QA 和 TAT-DQA 基准测试中表现优于所有基准模型，包括先前的最佳微调模型和像 GPT-4 这样的大规模语言模型。

Jan, 2024

对大型语言模型在表格数据预测中的公平性调查

通过一系列的实验，我们发现大型语言模型在表格预测任务中往往会继承社会偏见，这从根源上影响了它们的公平性，并且通过标签反转等方法可以显著减少这些偏见。

Oct, 2023

评估金融文件问答中 LLM 的数学推理能力

通过对四个金融表问答数据集进行广泛实验，这项研究探讨了大型语言模型在数学推理、结构化表格和非结构化文本融合方面的能力。研究集中分析了模型对表格复杂度的敏感性以及随着算术推理步骤增加的性能变化。结果揭示了大型语言模型在处理半结构化表格中复杂数学场景时的能力和限制，并提出了一种针对半结构化文档的新型提示技术，其性能与其它基准线相媲美或超越，同时提供对大型语言模型在此任务中的细致理解。

Feb, 2024

HELLaMA: 基于 LLaMA 的表格文本生成方法，通过突出重要证据

使用大型模型进行 fine-tuning，注入推理信息，突出表格的效果，并且获得最先进的结果。

Nov, 2023

基于表格转文本方法探索在基于 LLM 的领域混合数据上增强问答效果的影响

通过比较分析不同 Table-to-Text 方法生成的语料库对 QA 系统性能的影响，为开发稳健 QA 系统的学术和工业界提供有价值的参考。

Feb, 2024