TaCube:针对表格数据的预计算数据立方体,用于回答数值推理问题
本文提出了一个新的 QA 数据集 TAT-QA,并提出了一个新的 QA 模型 TAGOP,该模型可以同时推理表格和文本的含义,但该模型的 F1 值达到了 58.0%,距离专家水平还有较大的差距(90.8%),本文提供的 TAT-QA 可以作为处理混合形式数据的 QA 模型的基准。
May, 2021
本研究提出了 FORTAP,通过利用海量电子表格公式语料库设计两个公式预训练任务,利用电子表格公式自然而然的强数值推理监督来实现表格预训练。研究结果表明,FORTAP 在单元格类型分类和公式预测任务上取得了最先进的结果,展示了数值推理预训练的巨大潜力。
Sep, 2021
这篇论文提出了一个层次化的数值推理技能分类法,涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估,并开发了一组多样化的数值探针,论文发现在所有数值推理类型中,FlanT5(无 / 少数据)和 GPT-3.5(少数据)相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。
Nov, 2023
构建一个新的 QA benchmark (MultiHiertt),使用金融报告构建。包含多个表以及更长的非结构化文本,大部分表格是分层的;提供了复杂的数量推理的细粒度注释;提出了一个新的 QA 模型 MT2Net,它首先应用事实检索来提取相关事实,然后使用推理模块对检索到的事实进行符号推理。与现有基线相比,实验结果表明 MultiHiertt 对现有基线提出了严峻的挑战。
Jun, 2022
通过生成可执行程序的方式来回答表格问题(TableQA)一直面临的挑战是适应各种表格结构,通常需要特定领域的逻辑形式。为此,本文引入了一个统一的 TableQA 框架,该框架:(1)以多索引 Pandas 数据帧的形式提供结构化表格的统一表示;(2)使用 Python 作为强大的查询语言;(3)使用少样本提示将自然语言问题转化为可在 Pandas 数据帧上执行的 Python 程序。此外,为了回答复杂的关系性问题并具备扩展程序功能和外部知识,我们的框架允许自定义的 API,供 Python 程序调用。我们在涉及不同结构的四个 TableQA 数据集上进行了实验 —— 关系型、多表格和分层矩阵形式 —— 并在过去最先进系统的基础上取得了显著的改进。在消融研究中,我们表明相比只使用 LLM 的基线方法,我们的多索引表示和 API 可以带来好处;同时,我们还证明了我们的方法是模块化的,可以整合其他的 API。
Oct, 2023
TANQ 是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集,我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测,最好的基准模型 GPT4 的综合 F1 得分为 29.1,相较于人类表现差了 19.7 个百分点,我们分析了在这个任务中所需的不同技能以及模型生成答案的常见失败,指出 TANQ 是一个具有许多挑战的复杂任务。
May, 2024
通过用 CABINET 框架抑制无关信息并利用一个弱监督模块生成解析语句来衡量表格内容的相关性,大型语言模型 (LLMs) 可集中在相关的表格数据上,从而在表格问答任务中显著优于其他方法。
Feb, 2024
本文介绍了一种基于强化预训练的模型 ReasTAP,可以注入高级的表格推理能力,在多项任务上取得新的最先进性能和显著的改进。
Oct, 2022
本文提出了一种新的多表问题回答模型,称作 MultiTabQA,除了回答多表问题外,还能生成表格回答。为了实现有效的训练,我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指标,我们评估了生成的表格。经过在三个数据集(Spider、Atis 和 GeoQuery)上微调后,MultiTabQA 优于在多表 QA 环境中改编成的最先进的单表 QA 模型。
May, 2023
该论文提出了一种名为 TAG-QA 的广义三阶段方法,通过表格到图的转换、外部知识检索和表格 - 文本融合来解决生成型 TableQA 中推断长篇自由格式答案的挑战。实验显示,TAG-QA 在 BLEU-4 和 PARENT F-score 指标上优于多个最先进的基准模型。
Sep, 2023