展示计算过程：中间计算与语言模型的草稿本

Nov, 2021

展示计算过程：中间计算与语言模型的草稿本

Show Your Work: Scratchpads for Intermediate Computation with Language Models

Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin...

TL;DR利用逐步计算的方法，通过训练变换器模型在少量数据中输出中间运算结果到 “scratchpad”，为多步计算任务赋能，从而显著提高预训练语言模型处理复杂计算的能力。

Abstract

Large pre-trained language models perform remarkably well on tasks that can be done "in one pass", such as generating realistic text or synthesizing computer programs. However, they struggle with tasks that require unbounded →

pre-trained language models multi-step computation transformers scratchpad few-shot regime

发现论文，激发创造

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码 - 回归 - 解码机器。

Aug, 2023

小型 Transformer 的算术教学

在不预训练的情况下，通过对训练数据进行简单的格式更改并使用包含中间步骤结果的思维链式数据进行训练，即便在完全缺乏预训练的情况下，也可以显著提高算术能力的准确性、样本复杂性和收敛速度。

Jul, 2023

变压器语言模型在算法学习上的限制

我们分析了 Transformer 语言模型在学习离散算法方面的能力，通过引入两个需要组合多个离散子任务的新任务，我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时，度量了学习的基本组合。我们观察到，最先进的 Transformer 语言模型的组合能力非常有限，而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理，证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。

Feb, 2024

语言模型级联

通过利用概率编程技术以及组合多个模型，并在测试中反复交互，我们提出了一种基于语言模型层级结构的模型组合方法，以实现对复杂数据类型（如字符串）的快速学习和推理。

Jul, 2022

Transformer 推理能力的界限与归纳式草稿板

此论文提出了 “分布局部性” 的概念，用于捕捉正常 Transformer 模型有效实现弱学习的情况，同时证明了分布局部性高的情况下不能高效学习，并且介绍了通过破坏分布局部性和改进超出分布泛化能力的 “归纳式草稿” 概念。

Jun, 2024

语言模型在算术和符号归纳中的局限性

本文研究了大型预训练语言模型在符号操作任务上的能力，发现其对于简单的符号操作任务如复制、反转、加法等存在局限，并提出了基于位置标记，细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示，这些方法均无法完全解决最简单的加法归纳问题。最后，介绍了一种带有辅导的 LMs，可以在 OOD 和重复符号的情况下实现 100％的准确性。

Aug, 2022

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

使用数字分解评估 Transformer 语言模型在算术运算上的表现

本文研究如何通过分解数字来提高 Transformer 语言模型执行算术运算的准确性，称之为 “Calculon”，并将其与 GPT-3 在加减乘三个运算任务上进行了对比，结果表明在五位数加法任务上，Calculon 的准确率提高了 63％。

Apr, 2023

通过示范向自回归语言模型教授复杂任务

本文演示了通过对结构适当的逐步演示进行自回归语言模型（GPT-Neo）的微调，可以教授它执行以前对 Transformers 难以处理的数学任务（如笔算模态运算）。通过对解决长除法问题的 200 个结构适当的演示进行 Fine-tuning，可以在不更改学习算法的情况下，使最小的 GPT-Neo 模型实现超过 80％的准确性，这表明在小型的数据集上进行充分的微调和完善的演示可能是帮助没有机器学习培训的个人让这些模型执行某些复杂多步骤任务的有用范例。

Sep, 2021

信仰与命运：变形金刚在组合性上的局限性

本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性，研究结果表明 Transformer 模型虽然具有出色的多步推理性能，但其解决复合任务的方式是将多步推理化简为线性子图匹配，而并未完全发展出解决问题的系统性解决问题的方法，同时，随着任务复杂度的增加，Transformer 模型的性能也会快速下降。

May, 2023