Transformer 推理能力的界限与归纳式草稿板

Jun, 2024

Transformer 推理能力的界限与归纳式草稿板

How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad

Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Colin Sandon, Omid Saremi

TL;DR此论文提出了 “分布局部性” 的概念，用于捕捉正常 Transformer 模型有效实现弱学习的情况，同时证明了分布局部性高的情况下不能高效学习，并且介绍了通过破坏分布局部性和改进超出分布泛化能力的 “归纳式草稿” 概念。

Abstract

Can transformers predict new syllogisms by composing established ones? More generally, what type of targets can be learned by such models from scratch? Recent works show that →

transformers syllogisms distribution locality scratchpad out-of-distribution generalization

发现论文，激发创造

Transformer 在思维链条中的表达能力

研究表明，通过允许 transformer 在回答问题之前生成和依赖于中间令牌的序列，可以提高其推理能力，增加中间生成的数量将显著扩展 transformer 解码器的计算能力，进而使其能够识别所有正则语言，保持上下文敏感语言，并解决多项式时间可解问题。

Oct, 2023

通过自然语言可满足性推动变形金刚规则推理的极限

本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集，以研究 transformer 模型的推理能力，发现这些模型在解决困难的 NLSat 问题方面表现出非常强的能力，但仍然存在限制，包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。

Dec, 2021

Transformer 能否在自然语言的片段中进行推理？

本文对深度学习在自然语言处理（NLP）方面的最新应用进行了调查研究，发现 transformer-based language models 在检测受控自然语言片段的有效推理方面表现出明显的过拟合问题，未能获取主导推理的逻辑原则。

Nov, 2022

Transformer 中的推理：减轻伪相关性和推理捷径

用已知有误导性关联的数据集，在逻辑推理任务中训练两种模型：基于证明的生成式 Transformer 模型 WP-BART 和神经符号模型 SIP-BART。结果发现，SIP-BART 能够避免逻辑推理的捷径，而 WP-BART 无法。对于 SIP-BART，还发现了几种之前文献中未描述的推理错误类型，并进行了定性分析，创建了一个包含四种不同陷阱类型的分类系统。

Mar, 2024

变压器语言模型在算法学习上的限制

我们分析了 Transformer 语言模型在学习离散算法方面的能力，通过引入两个需要组合多个离散子任务的新任务，我们在从头开始训练 LLaMA 模型以及 GPT-4 和 Gemini 上引导训练时，度量了学习的基本组合。我们观察到，最先进的 Transformer 语言模型的组合能力非常有限，而且在样本上的规模效果比为新的算法组合重新学习所有子任务要差。我们还提出了一个复杂性理论的定理，证明了在记忆前馈模型上的梯度下降可能在数据效率上指数级低效。

Feb, 2024

变形金刚何时能够通过抽象符号进行推理？

调查了 Transformer 大型语言模型在涉及抽象符号的关系推理任务中的能力。对于 (i) 回归任务，我们证明了 Transformer 在训练时具有泛化性，但需要大量的训练数据；对于具有符号标签的 (ii) 下一个令牌预测任务，我们展示了一种 “反比例尺律”：随着嵌入维度的增加，Transformer 无法泛化。针对 (i) 和 (ii) 这两种情况，我们提出了微妙的 Transformer 修改，通过每个头部添加两个可训练参数来减少所需的数据量。

Oct, 2023

展示计算过程：中间计算与语言模型的草稿本

利用逐步计算的方法，通过训练变换器模型在少量数据中输出中间运算结果到 “scratchpad”，为多步计算任务赋能，从而显著提高预训练语言模型处理复杂计算的能力。

Nov, 2021

信仰与命运：变形金刚在组合性上的局限性

本研究旨在探讨 Transformer 大型语言模型在复合任务上的局限性，研究结果表明 Transformer 模型虽然具有出色的多步推理性能，但其解决复合任务的方式是将多步推理化简为线性子图匹配，而并未完全发展出解决问题的系统性解决问题的方法，同时，随着任务复杂度的增加，Transformer 模型的性能也会快速下降。

May, 2023

为什么敏感函数对 Transformer 较难？

在变压器架构下，输入空间敏感性限制了损失函数的变化趋势，使得变压器在一般化方面表现出低敏感性和低程度的偏好，并且在计算简单形式语言（如 PARITY）和长度一般化方面存在困难。

Feb, 2024

掌握 Transformer：隐含的推理者 —— 通向泛化极限的机械之旅

我们研究 transformers 模型是否能够学会隐性地进行参数化知识推理，发现它们能够通过全面且超过过拟合的训练学会隐性推理，但在不同推理类型上的推广程度存在差异：在面对分布之外的例子时，transformers 在组合推理上无法进行系统化推广但在比较推理上能够成功。通过训练期间对模型内部进行分析实验，我们发现了隐性推理的机制，如泛化电路的形成以及它与泛化和记忆电路相对效率的关系，还发现了系统性与泛化电路配置之间的关系。我们的研究结果指导着数据和训练设置，以更好地实现隐性推理，并提出了改进 transformer 架构的潜在方法，如鼓励跨层面的知识共享。此外，我们证明对于具有大型搜索空间的具有挑战性的推理任务，基于非参数化记忆的 GPT-4-Turbo 和 Gemini-1.5-Pro 无论在提示样式还是检索增强方面都表现糟糕，而完全掌握隐性推理的 transformers 模型能够实现近乎完美的准确性，展示了参数化记忆在复杂推理中的威力。

May, 2024