NOAHQA: 可解释计算图的数值推理问答数据集

EMNLPSep, 2021

NOAHQA: 可解释计算图的数值推理问答数据集

NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset

Qiyuan Zhang, Lei Wang, Sicheng Yu, Shuohang Wang, Yang Wang...

TL;DR介绍一个双语问答数据集 NOAHQA，旨在解决目前数值推理问题缺乏复杂问题以及提供推理过程的可解释性问题，通过使用 NOAHQA 数据集，开发了一个可解释的推理图，并提出了适当的评估指标来衡量答案质量。在 NOAHQA 上对现有 QA 模型进行评估，表明人类表现为 89.7，最好的 QA 模型只能达到 55.5 的准确匹配分数。

Abstract

While diverse question answering (QA) datasets have been proposed and contributed significantly to the development of deep learning models for QA tasks, the existing datasets fall short in two aspects. First, we lack QA datasets covering complex questions that involve answers as well a

question answering numerical reasoning interpretable reasoning graph noahqa evaluation metric

发现论文，激发创造

MarkQA：一个具有数值推理的大规模知识库问答数据集

本文提出了一个新的任务，NR-KBQA，它需要进行多跳推理和数值推理。我们使用 Python 格式的逻辑形式 PyQL 设计了数值推理问题的推理过程，并提供了一个名为 MarkQA 的大型数据集，用于促进 NR-KBQA 的开发。实验结果表明，在 MarkQA 上进行复杂的数值推理在 KBQA 中面临巨大挑战。

Oct, 2023

FinQA: 金融数据上的数值推理数据集

为了解决金融领域中财务报表分析的难题，本文提出了一个新的数据集 FinQA，并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。

Sep, 2021

ConvFinQA：探索在金融问答中的数字推理链

本研究旨在探讨大规模预训练语言模型在金融领域中实现数值推理的挑战，提出了一个新的大规模数据集 ConvFinQA，对其进行了综合性实验和分析，为研究实际世界中复杂推理任务提供新的资源。

Oct, 2022

FormulaQA：一个基于公式的数值推理问答数据集

通过使用存在的公式驱动的 FormulaQA 数据集，得出了使用检索增强的 LLMs 模型结合外部公式数据库时对现有模型具有重要改进潜力的实证结果。

Feb, 2024

GQA：一个适用于真实世界视觉推理和组合问答的新数据集

GQA 是一个旨在解决以往 VQA 数据集的缺陷问题的实际可视化推理和组成问题回答数据集，它使用场景图结构创建了 2200 万个不同的推理问题，伴随着功能程序共同表示它们的语义，其中包括新的可调平滑技术来缓解问题偏差。贯穿数据集的还有一套新的度量标准，可以评估基本的质量，例如一致性、基础和可信性。

Feb, 2019

GeoQA：一个面向多模态数字推理的几何问答基准

本文提出了大规模的 Geometric Question Answering 数据集 GeoQA 和一个神经几何求解器 NGS，并通过多模式信息综合分析和生成可解释性程序来解决几何问题。

May, 2021

朝向与问题格式无关的数值推理：一套必备任务

介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效，并需具有探测数据中的问题格式，查找中间常见格式，加入常识知识和解决不同格式数据不平衡的能力。同时，构建了多个基线模型，包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差，说明了该基准测试的难度。

May, 2020

环球之间：基于深度神经网络的异质家族知识图谱的数值聚合问答

研究提出了一种新的端到端数值聚合 QA 方法，名为 GLOBE，用于解决对家谱树进行数值聚合问题。结果表明，GLOBE 在这一任务上的准确率达到了 87%，远超过当前最先进模型的 21%。这项研究对家谱信息中心和博物馆具有实际意义，使得专家和普通公众可以轻松进行家谱数据研究。

Jul, 2023

e-QRAQ: 一个带解释的多轮推理数据集与模拟器

本文中，我们提出了一个新的数据集和用户模拟器 e-QRAQ（可解释的查询、推理和回答问题），该数据集测试了代理的读取模糊文本的能力，通过提问来回答挑战性问题并解释其问题和答案的推理。我们使用端到端记忆网络来训练一个神经结构，以成功地生成对问题的预测和部分解释，并发现预测和解释的质量之间存在着很强的相关性。

Aug, 2017

FigureQA：一份为视觉推理而注释的图像数据集

FigureQA 是一个视觉推理语料库，包含超过一百万个基于 100,000 张图像的问题 - 答案对。图像来自五个类别的合成科学式图形：线图、点线图、垂直和水平条形图以及饼状图。通过从 15 个模板中生成问题并提供用于训练机器学习模型的附属数据，FigureQA 为开发可以直观地识别数据可视化中的模式的模型迈出了第一步。

Oct, 2017