将数字推理技能注入语言模型

ACLApr, 2020

Injecting Numerical Reasoning Skills into Language Models

Mor Geva, Ankit Gupta, Jonathan Berant

TL;DR通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Abstract

Large pre-trained language models (LMs) are known to encode substantial amounts of linguistic information. However, high-level reasoning skills, such as numerical reasoning, are difficult to learn from a language

pre-trained language models numerical reasoning data generation multi-task learning encoder-decoder architecture

发现论文，激发创造

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

克服语言模型中技能注入的障碍：以算术为例的案例研究

提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Nov, 2022

反思：通过解线性方程组反向引导语言模型进行数值推理

本文提出了一种利用锚定数字来诱发和利用预先训练的语言模型潜在的数字推理知识的新方法，通过在复杂的数字上应用简单的锚定数字隐含的推理表达式，以显式地得到相应的答案并训练语言模型的数字推理能力。实验结果表明该方法显著提高了现有语言模型的数字推理能力。

Oct, 2022

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

理性飞跃：教授预训练模型系统性地推理隐含知识

该研究证明，通过使用既有的预训练模型中的隐含知识以及显式的自然语言陈述，神经网络可以可靠地执行系统性推理任务，这为开放领域的系统不断与用户交互、持续改进的路径铺平了道路。

Jun, 2020

由语言模型发展而来的数据科学：从文科到数科

研究表明，大型语言模型在将读写能力转化为计算能力方面存在翻译难题，但通过对所描述的四个复杂数据集的统计分析，结合不能通过简单规则编码或记忆的算术操作，可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性回归预测海量数据的能力。

Jan, 2023

可靠推理过程指导下的数值推理增强

通过分解答案公式以确保支持答案的可靠推理过程，Encore 方法在所有五个实验数据集上平均提高了 1.8%，证明了该方法的有效性。

Feb, 2024

基于 Transformer 的语言模型的多语言数字理解探究

本研究提出基于 DistilBERT、XLM 和 BERT 的多语言探究任务，探讨自然语言数字系统中数值数据的组合推理证据，并发现这些预训练模型嵌入中编码的信息足以支持合法性判断，但一般不适用于值比较。

Oct, 2020

预训练词频对少样本推理的影响

本文研究预训练语言模型在数值推理方面的能力，以及该能力强弱与预训练数据中各项词语的出现频率之间的关系。研究结果表明，模型对出现频率较高的词语表现更为准确。此外，作者认为在解释理论评价结果时，应考虑到预训练数据带来的影响。

Feb, 2022

使用语言模型解决定量推理问题

Minerva 是一个预训练于自然语言数据并进一步训练于技术内容的大型语言模型，通过在技术基准测试中达到最先进的性能，帮助解决了需要量化推理的数学、科学和工程问题的任务，同时在 200 多个需要量化推理的本科水平的物理学、生物学、化学、经济学和其他科学问题上能够正确回答近三分之一的问题。

Jun, 2022