基于案例或规则：Transformer 模型如何进行数学计算？

Feb, 2024

基于案例或规则：Transformer 模型如何进行数学计算？

Case-Based or Rule-Based: How Do Transformers Do the Math?

Yi Hu, Xiaojuan Tang, Haotong Yang, Muhan Zhang

TL;DR尽管现代大型语言模型在各种复杂任务中表现出色，但它们仍然难以处理一些对人类来说很简单直观的数学问题，如加法。我们通过精心设计的干预实验，确认变压器在数学问题中执行基于案例的推理，无论是否使用 scratchpad。为了解决这些问题，我们提出了一种规则遵循微调 (Rule-Following Fine-Tuning) 技术，通过在输入中提供明确的规则，指导变压器逐步背诵和遵循这些规则。通过规则遵循微调，我们成功地使在 1-5 位数加法上微调的大型语言模型能够以超过 95% 的准确率推广到 12 位数加法，比使用 scratchpad 提高了 40% 以上。这一显著的改进表明，教导大型语言模型明确使用规则有助于它们学习基于规则的推理，并在长度方面更好地实现推广。

Abstract

Despite the impressive performance in a variety of complex tasks, modern large language models (LLMs) still have trouble dealing with some math problems that are simple and intuitive for humans, such as addition.

large language models math problems rule-based reasoning case-based reasoning rule-following fine-tuning

发现论文，激发创造

利用局部注意力和网格样问题表示发现基本计算系统的 Transformer 模型

本文提出一种基于通用 Transformer 的深度学习模型，通过发现高效的算数程序，利用外部的网格状记忆进行多位数的加法计算，并且发掘了人类类似的计算策略，如位值对齐。

Jul, 2022

使用 Transformers 进行数学推理系统评估的符号框架

使用数据生成方法和符号代数，对变换器编码器的数学推理和泛化进行了 200,000 个例子的超大规模实验，并回答了变换器是否可以学习应用符号规则并推广到超出分布范围的例子。结果表明，扰动严重影响性能，并且可以将 F1 分数降至低于 17％，这表明推理主要由与数学运算的深层理解无关的表层模式所支配。

May, 2023

理解 Transformer 如何执行多步推理与匹配操作

通过研究 Transformer 中的匹配机制，我们发现小的初始化和 LayerNorm 后处理可以促进匹配机制的形成，从而增强模型的推理能力；此外，通过添加正交噪声来改进模型的推理能力，并就 Transformer 的并行推理机制提出一个假设，提高对大型语言模型推理过程的理解并引导设计更有效的推理架构和训练策略。

May, 2024

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

教授 Transformer 概率逻辑推理

本研究分析了 transformer-based 语言模型中的概率逻辑规则应用，并提出了 Probabilistic Constraint Training (PCT) 方法，该方法显式地模拟了概率逻辑推理，并在新的 QA 基准中评估了其准确性和可解释性。结果表明，该方法可以提高基本语言模型在需要概率逻辑推理时的准确性和解释性，并且该技术的学习也可适用于新的情境。

May, 2023

面向任务的对话系统的逻辑推理

本篇论文提出了一种基于预训练的 Transformer 模型 fine-tune 的方法，使之具备在对话语境中进行逻辑推理和回答问题的能力，而无需额外的训练数据集。研究结果表明，该模型在已训练属性上能够达到 90% 以上的精度，在适当的对话语境下能够提取出适当的限制条件传递给下游组件 (e.g. 知识库)。

Feb, 2022

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

通过简单的算术任务研究变形金刚的限制

研究了表现形式对于序列到序列的语言模型学习加减法算术任务的影响，发现表现形式对模型的准确性有很大影响；通过引入位置标记，模型可以准确地学习添加和减少 60 位数字。无论参数和训练示例数量如何，模型都不能学习与训练期间数字长度无关的加和规则。

Feb, 2021

使用 Transformer 测量神经证明生成中的系统化概括能力

研究 Transformer 语言模型在自然语言中进行基于逻辑推理的任务，探究它们的系统泛化能力，发现其在逆向推理证明方面表现更优，并且发现没有经过证明生成训练的模型更适合处理长证明的问题。研究结果强调了 TLM 在逻辑推理中的系统泛化行为，并且对其核心推理策略的深入研究提出了启示。

Sep, 2020

小型 Transformer 的算术教学

在不预训练的情况下，通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练，即便在完全缺乏预训练的情况下，也可以显著提高算术能力的准确性、样本复杂性和收敛速度。

Jul, 2023