TableBench：一个全面复杂的表格问答基准

Aug, 2024

TableBench：一个全面复杂的表格问答基准

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu...

TL;DR本研究针对大型语言模型在工业场景下处理复杂表格数据的不足，提出了全面复杂的基准TableBench，以评估表格问答能力。通过创建TableLLM并进行大量实验，发现当前模型在满足实际需求方面仍有显著提升空间，尤其是与人类表现相比，最先进的模型GPT-4仅取得了中等分数。

Abstract

Recent advancements in Large Language Models (LLMs) have markedly enhanced the interpretation and processing of tabular data, introducing previously unimaginable capabilities. Despite these achievements, LLMs still encounter significant challenges when applied in industrial scenarios,

发现论文，激发创造

填补鸿沟: 利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023

TableQAKit：一套全面实用的基于表格的问题回答工具包

TableQAKit 是第一个专门设计用于 TableQA 的综合工具包，它提供了丰富的 TableQA 数据集、集成了流行的方法和大型语言模型，并且在一些数据集上实现了新的最佳性能，同时还提供了一个基于大型语言模型的 TableQA 基准测试。

Oct, 2023

Text2Analysis: 具有高级数据分析和不明确查询的表格问答基准

通过开发Text2Analysis基准和创新的注释方法，我们展示了在表格数据分析领域中大规模语言模型的潜力，以推动进一步的研究机会。

Dec, 2023

表格处理的大语言模型：调查报告

通过对大型语言模型（LLMs）在表格任务方面的应用进行全面的概述，本文除了涵盖传统的表格问答（Table QA）和事实验证等领域，还强调了表格操作和高级表格数据分析等新方面，并介绍了LLMs中的指导调优、提示和基于代理的方法，同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。

Feb, 2024

大型语言模型在表格推理中的调查

使用大型语言模型 (LLMs) 改善表格推理性能是当前主流方法。本文分析了在LLMs时代中提升表格推理性能的主要技术以及LLMs相较于之前方法的优势，并提供了改进现有方法和扩展实际应用的研究方向，以激发未来表格推理研究的进一步发展。

Feb, 2024

TabSQLify：通过表格分解提高LLMs的推理能力

TabSQLify是一种新颖的方法，通过利用文本转SQL生成将表格分解为较小且相关的子表，仅包含回答问题或验证陈述所需的基本信息，然后执行推理任务。在对四个具有挑战性的数据集进行全面评估的情况下，我们的方法展现出与依赖完整表格作为输入的流行方法相当或更好的性能。此外，我们的方法可以显著减少输入上下文的长度，使其在大规模表格推理应用中更具可扩展性和高效性。

Apr, 2024

TableVQA-Bench: 多表领域上的视觉问答基准

本文介绍了一个名为TableVQA-Bench的基准，用于表格视觉问答，该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统，获取图像，并通过利用大型语言模型生成QA问题。我们在TableVQA-Bench上全面比较了不同的多模态大型语言模型的性能，其中GPT-4V在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明，对于TableVQA而言，视觉输入的处理比文本输入更具挑战性。

Apr, 2024

TANQ: 一个开放领域的表格问答数据集

TANQ是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集，我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测，最好的基准模型GPT4的综合F1得分为29.1，相较于人类表现差了19.7个百分点，我们分析了在这个任务中所需的不同技能以及模型生成答案的常见失败，指出TANQ是一个具有许多挑战的复杂任务。

May, 2024

关于表格问答的语言模型鲁棒性研究

通过评估Large Language Models (LLMs)在基于维基百科和财务报告的Tabular Question Answering (TQA)数据集上的表格理解能力，研究发现指令对性能有显著影响，新模型Llama3比之前的版本更具鲁棒性，但WTQ数据集存在数据污染和实际可靠性问题，需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进LLMs的可靠性。

Jun, 2024

TART: 一个开源工具增强框架用于可解释的表格推理

本研究解决了大型语言模型在理解表格结构和进行精确数值推理方面的局限，提出了一种集成了专业工具的工具增强框架TART。实验表明，TART在数据处理精度和推理过程清晰度方面显著优于现有方法，尤其是在与CodeLlama结合时，准确率达到了闭源模型GPT-3.5-turbo的90%。

Sep, 2024