朝向与问题格式无关的数值推理：一套必备任务

May, 2020

朝向与问题格式无关的数值推理：一套必备任务

Towards Question Format Independent Numerical Reasoning: A Set of Prerequisite Tasks

Swaroop Mishra, Arindam Mitra, Neeraj Varshney, Bhavdeep Sachdeva, Chitta Baral

TL;DR介绍了一个多方面的基准测试 NUMBERGAME 来评估八种不同形式的数值推理任务的模型绩效，并需具有探测数据中的问题格式，查找中间常见格式，加入常识知识和解决不同格式数据不平衡的能力。同时，构建了多个基线模型，包括一个基于作弊纸的知识狩猎模型。但所有基线模型都表现较差，说明了该基准测试的难度。

Abstract

numerical reasoning is often important to accurately understand the world. Recently, several format-specific datasets have been proposed, such as numerical reasoning in the settings of Natural Language Inference

numerical reasoning benchmark question format numbergame knowledge hunting

发现论文，激发创造

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

机器阅读理解任务中的数值推理：我们已经到达了吗？

本文研究了针对数字推理任务的自然语言处理模型表现，并发现现有的评估指标无法有效测量模型在这一任务上的进展。

Sep, 2021

MarkQA：一个具有数值推理的大规模知识库问答数据集

本文提出了一个新的任务，NR-KBQA，它需要进行多跳推理和数值推理。我们使用 Python 格式的逻辑形式 PyQL 设计了数值推理问题的推理过程，并提供了一个名为 MarkQA 的大型数据集，用于促进 NR-KBQA 的开发。实验结果表明，在 MarkQA 上进行复杂的数值推理在 KBQA 中面临巨大挑战。

Oct, 2023

ConvFinQA：探索在金融问答中的数字推理链

本研究旨在探讨大规模预训练语言模型在金融领域中实现数值推理的挑战，提出了一个新的大规模数据集 ConvFinQA，对其进行了综合性实验和分析，为研究实际世界中复杂推理任务提供新的资源。

Oct, 2022

神经模型的数学推理能力分析

该研究针对数学领域中的推理、学习、应用规则等独特挑战，提出了一个数学问题套件的任务，用于测试和评估神经架构等系统的性能、能力和失效模式。通过生成数据并运用序列到序列的最强模型，可以从不同角度评估模型在数学问题解决和知识推广方面的能力。

Apr, 2019

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

评估文图模型中的数值推理

我们综合评估了一系列文本到图像生成模型在不同难度的数值推理任务上的性能，并展示即使是最先进的模型在数学技能方面也较为基础，特别是它们在生成图像中正确表达准确数量对象的能力仅限于较小的数字，并高度依赖于数字术语所出现的上下文，并且随着每个连续的数字，能力迅速恶化。我们还展示了模型对语言量化词（如 “几个” 或 “尽可能多”）的理解能力较差，对零的概念有困难，并且在部分数量和分数表示等更高级的概念方面存在困难。我们将提示、生成的图像和人工注释捆绑在一起，推出了 GeckoNum，一个用于评估数值推理的新基准。

Jun, 2024

FinQA: 金融数据上的数值推理数据集

为了解决金融领域中财务报表分析的难题，本文提出了一个新的数据集 FinQA，并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。

Sep, 2021

可靠推理过程指导下的数值推理增强

通过分解答案公式以确保支持答案的可靠推理过程，Encore 方法在所有五个实验数据集上平均提高了 1.8%，证明了该方法的有效性。

Feb, 2024