TaCube：针对表格数据的预计算数据立方体，用于回答数值推理问题

May, 2022

TaCube：针对表格数据的预计算数据立方体，用于回答数值推理问题

TaCube: Pre-computing Data Cubes for Answering Numerical-Reasoning Questions over Tabular Data

Fan Zhou, Mengkang Hu, Haoyu Dong, Zhoujun Cheng, Shi Han...

TL;DRTaCube 是一种预先计算表格聚合 / 算术结果以帮助 PLMs 回答数字推理问题的通用解决方案，可将其显着应用于 TAT-QA 并在 WikiTQ 上获得新的最先进的结果.

Abstract

Existing auto-regressive pre-trained language models (PLMs) like T5 and BART, have been well applied to table question answering by UNIFIEDSKG and TAPEX, respectively, and demonstrated state-of-the-art results on multiple benchmarks. However, auto-regressive PLMs are challenged by rece

pre-trained language models numerical reasoning tacube table segments computation

发现论文，激发创造

TAT-QA：面向金融领域表格和文本混合内容的问答基准

本文提出了一个新的 QA 数据集 TAT-QA，并提出了一个新的 QA 模型 TAGOP，该模型可以同时推理表格和文本的含义，但该模型的 F1 值达到了 58.0％，距离专家水平还有较大的差距（90.8％），本文提供的 TAT-QA 可以作为处理混合形式数据的 QA 模型的基准。

May, 2021

FORTAP: 使用公式进行数值推理感知表格预训练

本研究提出了 FORTAP，通过利用海量电子表格公式语料库设计两个公式预训练任务，利用电子表格公式自然而然的强数值推理监督来实现表格预训练。研究结果表明，FORTAP 在单元格类型分类和公式预测任务上取得了最先进的结果，展示了数值推理预训练的巨大潜力。

Sep, 2021

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

MultiHiertt: 对多层次表格和文本数据的数值推理

构建一个新的 QA benchmark (MultiHiertt)，使用金融报告构建。包含多个表以及更长的非结构化文本，大部分表格是分层的；提供了复杂的数量推理的细粒度注释；提出了一个新的 QA 模型 MT2Net，它首先应用事实检索来提取相关事实，然后使用推理模块对检索到的事实进行符号推理。与现有基线相比，实验结果表明 MultiHiertt 对现有基线提出了严峻的挑战。

Jun, 2022

针对多样的表结构的问题回答辅助代码生成

通过生成可执行程序的方式来回答表格问题（TableQA）一直面临的挑战是适应各种表格结构，通常需要特定领域的逻辑形式。为此，本文引入了一个统一的 TableQA 框架，该框架：（1）以多索引 Pandas 数据帧的形式提供结构化表格的统一表示；（2）使用 Python 作为强大的查询语言；（3）使用少样本提示将自然语言问题转化为可在 Pandas 数据帧上执行的 Python 程序。此外，为了回答复杂的关系性问题并具备扩展程序功能和外部知识，我们的框架允许自定义的 API，供 Python 程序调用。我们在涉及不同结构的四个 TableQA 数据集上进行了实验 —— 关系型、多表格和分层矩阵形式 —— 并在过去最先进系统的基础上取得了显著的改进。在消融研究中，我们表明相比只使用 LLM 的基线方法，我们的多索引表示和 API 可以带来好处；同时，我们还证明了我们的方法是模块化的，可以整合其他的 API。

Oct, 2023

TANQ: 一个开放领域的表格问答数据集

TANQ 是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集，我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测，最好的基准模型 GPT4 的综合 F1 得分为 29.1，相较于人类表现差了 19.7 个百分点，我们分析了在这个任务中所需的不同技能以及模型生成答案的常见失败，指出 TANQ 是一个具有许多挑战的复杂任务。

May, 2024

基于内容相关性的表格问答问题噪声减少

通过用 CABINET 框架抑制无关信息并利用一个弱监督模块生成解析语句来衡量表格内容的相关性，大型语言模型 (LLMs) 可集中在相关的表格数据上，从而在表格问答任务中显著优于其他方法。

Feb, 2024

ReasTAP: 通过合成推理实例在预训练期间注入表格推理技能

本文介绍了一种基于强化预训练的模型 ReasTAP，可以注入高级的表格推理能力，在多项任务上取得新的最先进性能和显著的改进。

Oct, 2022

MultiTabQA：为多表问答生成表格答案

本文提出了一种新的多表问题回答模型，称作 MultiTabQA，除了回答多表问题外，还能生成表格回答。为了实现有效的训练，我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指标，我们评估了生成的表格。经过在三个数据集（Spider、Atis 和 GeoQuery）上微调后，MultiTabQA 优于在多表 QA 环境中改编成的最先进的单表 QA 模型。

May, 2023

本地化、检索和融合：用于自由形式表格问答的通用框架

该论文提出了一种名为 TAG-QA 的广义三阶段方法，通过表格到图的转换、外部知识检索和表格 - 文本融合来解决生成型 TableQA 中推断长篇自由格式答案的挑战。实验显示，TAG-QA 在 BLEU-4 和 PARENT F-score 指标上优于多个最先进的基准模型。

Sep, 2023