NT5?! 训练 T5 进行数字推理

Apr, 2021

NT5?! Training T5 to Perform Numerical Reasoning

Peng-Jian Yang, Ying Ting Chen, Yuechan Chen, Daniel Cer

TL;DR通过五个顺序训练计划，我们使用一种预先培训的 T5 模型适应 NRoT，并在三个数据集上进行进一步训练以增强 NRoT 的技能并在 DROP 数据集上进行微调。我们的模型通过训练 T5 多任务框架以及多个不断增加难度的数字推理数据集，展现了较好的 DROP 性能表现。

Abstract

numerical reasoning over text (NRoT) presents unique challenges that are not well addressed by existing pre-training objectives. We explore five sequential training schedules that adapt a pre-trained

numerical reasoning pre-training objectives t5 model discrete reasoning over text multitasking framework

发现论文，激发创造

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

研究文本转换模型的数字学习能力

本文研究了基于转换器的预训练语言模型应用数字理解方面的能力。作者使用文本到文本的转移学习模型 T5，并考虑了数字编码、大小排序、查找数列中的最小和最大值、排序等四个任务。结果表明，虽然 T5 在内插设置下表现良好，但在所有四个任务的外推设置下仍然存在较大难度。

Sep, 2021

面向表格和文本混合数值推理的全面解决方案程序化预训练

本文提出了三个预训练任务，具体包括：变量完整性排名（Variable Integrity Ranking）；变量操作符预测（Variable Operator Prediction）；变量关键词屏蔽（Variable Keyphrase Masking）并应用这些任务对数字推理进行建模，结果表明这种方法比基于 Transformer 的模型胜出，对金融报表等表格和文本混合结构进行数字推理具有较高的效果。

May, 2023

机器阅读理解任务中的数值推理：我们已经到达了吗？

本文研究了针对数字推理任务的自然语言处理模型表现，并发现现有的评估指标无法有效测量模型在这一任务上的进展。

Sep, 2021

面向任务的对话系统的逻辑推理

本篇论文提出了一种基于预训练的 Transformer 模型 fine-tune 的方法，使之具备在对话语境中进行逻辑推理和回答问题的能力，而无需额外的训练数据集。研究结果表明，该模型在已训练属性上能够达到 90% 以上的精度，在适当的对话语境下能够提取出适当的限制条件传递给下游组件 (e.g. 知识库)。

Feb, 2022

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

用阅读理解为 BERT 配备计算器：寻找操作和参数

介绍了基于 BERT 的阅读理解模型，可以通过简单的程序执行轻量级的数值推理，并在具有挑战性的 Discrete Reasoning Over Passages 数据集上，通过添加浅层程序，实现了 33％的绝对改进。模型可以在数学词问题环境中学习预测新的操作（Roy 和 Roth，2015）。

Aug, 2019

MultiHiertt: 对多层次表格和文本数据的数值推理

构建一个新的 QA benchmark (MultiHiertt)，使用金融报告构建。包含多个表以及更长的非结构化文本，大部分表格是分层的；提供了复杂的数量推理的细粒度注释；提出了一个新的 QA 模型 MT2Net，它首先应用事实检索来提取相关事实，然后使用推理模块对检索到的事实进行符号推理。与现有基线相比，实验结果表明 MultiHiertt 对现有基线提出了严峻的挑战。

Jun, 2022

DROP: 一种要求段落级独立理解的阅读理解基准

我们引入了一个新的英语阅读理解基准测试 DROP，它需要对段落内容进行离散推理。最佳系统仅在我们的广义准确性指标上实现 32.7％F1，而专家人类表现为 96.0％。

Mar, 2019