语言模型在算术和符号归纳中的局限性

Aug, 2022

语言模型在算术和符号归纳中的局限性

Limitations of Language Models in Arithmetic and Symbolic Induction

Jing Qian, Hong Wang, Zekun Li, Shiyang Li, Xifeng Yan

TL;DR本文研究了大型预训练语言模型在符号操作任务上的能力，发现其对于简单的符号操作任务如复制、反转、加法等存在局限，并提出了基于位置标记，细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示，这些方法均无法完全解决最简单的加法归纳问题。最后，介绍了一种带有辅导的 LMs，可以在 OOD 和重复符号的情况下实现 100％的准确性。

Abstract

Recent work has shown that large pretrained language models (LMs) can not only perform remarkably well on a range of Natural Language Processing (NLP) tasks but also start improving on reasoning tasks such as arithmetic

language models nlp tasks symbolic manipulation lms with tutor induction

发现论文，激发创造

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为 SYRELM 的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的 LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

大型语言模型是神经符号推理器

该论文研究了大型语言模型作为符号推理器的潜在应用，提出了一个针对符号挑战和实现游戏目标的 LLM 代理，并通过实验结果证明了其能显著增强 LLMs 作为符号推理自动化代理的能力，对涉及符号任务的基于文本的游戏取得了 88% 的平均性能。

Jan, 2024

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

评估拉马大型语言模型的新兴符号推理能力

大型语言模型在各种任务中取得了令人印象深刻的表现，即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了 Llama 2 家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型（Llama 2 Chat）以及两个专门设计用于解决数学问题的经过微调的 Llama 2 版本（MAmmoTH 和 MetaMath）。我们观察到，增加模型规模并在相关任务上进行微调可以显著提高性能。此外，通过使用细粒度的评估指标，我们发现这种性能提升主要出现在复杂度较低的数学公式上，尽管对于最大的经过微调的模型来说，这些公式通常仍然具有一定挑战性。

Jun, 2024

只需添加功能：神经符号语言模型

本文提出了一种方法来增强神经网络语言模型的归纳偏好，即通过将简单的函数结合到神经体系结构中形成分层神经符号语言模型，进而显著降低小语料库语言建模的困惑度，并证明其表现提高在更大的语料库中也会持续提升。

Dec, 2019

语言模型轻松完成难算术任务，但几乎不能完成简单算术任务

大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强，而对单位数乘法可信准确预测的能力较差，但在给出正确的高位数字作为条件下，后者任务的可信准确预测能力可以大幅提升。

Jun, 2024

克服语言模型中技能注入的障碍：以算术为例的案例研究

提出一种信息论干预的新型框架，以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘，从而使语言模型在保留语言能力的同时也具备数学推理的能力。

Nov, 2022

大型语言模型能否将 2 和 2 相加？探测蕴含的数学关系

大型语言模型在知识获取和统计推理方面取得了稳定进展，但在常识推理任务中仍存在局限性，纯统计学习难以应对其中的组合爆炸问题，更大并不总是更好，而且单纯追求统计改进只会加重正确答案与真正推理能力之间的危险混淆。

Apr, 2024

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集 MsAT 上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023