克服语言模型中技能注入的障碍：以算术为例的案例研究

Nov, 2022

克服语言模型中技能注入的障碍：以算术为例的案例研究

Overcoming Barriers to Skill Injection in Language Modeling: Case Study in Arithmetic

Mandar Sharma, Nikhil Muralidhar, Naren Ramakrishnan

TL;DR提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Abstract

Through their transfer learning abilities, highly-parameterized large pre-trained language models have dominated the NLP landscape for a multitude of downstream language tasks. Though linguistically proficient, t

transfer learning pre-trained language models numeric comprehension mathematical reasoning information-theoretic interventions

发现论文，激发创造

不牺牲语言熟练度的情况下学习非语言技能

本文提出了一种基于信息论干预和特定技能损失的新型非语言技能注入框架，可使 LLMs 学习严格的算术推理，相比注入非语言技能和保持语言知识的现有技术，我们的模型在使用少量数据且不产生额外合成语言训练数据的情况下表现更好。

May, 2023

将数字推理技能注入语言模型

通过在大量数据集上进行多任务训练，我们展示了数值推理可以注入到预训练的语言模型中，使性能得到显著提高。在一个简单通用的 encoder-decoder 架构上训练，我们的模型 GenBERT 在 DROP 数据集上的性能可以达到与同等规模的最先进模型相媲美，同时在数学单词问题数据集上保持高性能，这种方法为延展技能到大型预训练语言模型提供了一般的解决方案。

Apr, 2020

由语言模型发展而来的数据科学：从文科到数科

研究表明，大型语言模型在将读写能力转化为计算能力方面存在翻译难题，但通过对所描述的四个复杂数据集的统计分析，结合不能通过简单规则编码或记忆的算术操作，可以推断大型语言模型具备对数据分组 / 枢轴分类求和、推导相关性、演绎特征权重以及使用线性回归预测海量数据的能力。

Jan, 2023

提高预训练语言模型的数值推理能力

提出了一种新的推理感知预训练方法，使用对比学习将另一种数字表示形式纳入预训练模型，通过基于推理的数字预测任务训练来提高其数值推理能力，实验结果表明该方法在需要数值推理的任务上能够提高准确性，并且人类评估显示该方法能够提高数据集上的事实正确性。

May, 2022

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集 MsAT 上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

反思：通过解线性方程组反向引导语言模型进行数值推理

本文提出了一种利用锚定数字来诱发和利用预先训练的语言模型潜在的数字推理知识的新方法，通过在复杂的数字上应用简单的锚定数字隐含的推理表达式，以显式地得到相应的答案并训练语言模型的数字推理能力。实验结果表明该方法显著提高了现有语言模型的数字推理能力。

Oct, 2022

语言模型在算术和符号归纳中的局限性

本文研究了大型预训练语言模型在符号操作任务上的能力，发现其对于简单的符号操作任务如复制、反转、加法等存在局限，并提出了基于位置标记，细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示，这些方法均无法完全解决最简单的加法归纳问题。最后，介绍了一种带有辅导的 LMs，可以在 OOD 和重复符号的情况下实现 100％的准确性。

Aug, 2022

语言模型对数字的理解，至少在某种程度上

研究表明大型语言模型在理解和利用数字以及在数学问题上进行计算方面具有部分能力。

Jan, 2024

ArthModel: 提升大型语言模型的算术技能

通过训练语言模型生成与算数问题相关的后缀表达式，并将其与小型预训练模型结合，将令牌嵌入转化为真实稠密数字，通过深度学习平台的本地函数获得正确答案。最后，通过提示注入将小型模型的结果输出添加到语言模型中，从而增强了语言模型的算数能力。

Nov, 2023