Transformer 和循环体系结构在表示能力上的区别

Jun, 2024

Transformer 和循环体系结构在表示能力上的区别

Separations in the Representational Capabilities of Transformers and Recurrent Architectures

Satwik Bhattamishra, Michael Hahn, Phil Blunsom, Varun Kanade

TL;DR通过实验和理论分析比较了 Transformer 和 RNN 在不同任务上的表征能力、模型大小以及性能差异。

Abstract

transformer architectures have been widely adopted in foundation models. Due to their high inference costs, there is renewed interest in exploring the potential of efficient recurrent architectures (RNNs). In this paper, we analyze the differences in the →

transformer rnn representational capabilities separations performance

发现论文，激发创造

Transformer 可解释性转移到 RNN 中吗？

最近在递归神经网络（RNN）架构方面取得的进展，例如 Mamba 和 RWKV，使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过，这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选定可解释性方法是否适用于这些新兴的递归神经网络架构。具体来说，我们专注于通过对比激活添加来控制模型输出，使用调整后的镜头引发潜在预测，并从针对特定条件下生成错误输出的模型中获取潜在知识。我们的结果表明，当应用于 RNN 时，这些技术大多是有效的，并且我们还展示了通过利用 RNN 的压缩状态，可以改善其中一些技术。

Apr, 2024

人类句子加工：循环或注意力？

通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力，本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN，并挑战了人类句子处理涉及循环和即时处理的普遍理念，并提供了线索检索的证据

May, 2020

关于循环模型在长序列中的复兴：变形器时代的调研和研究机会

深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。

Feb, 2024

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

将预训练的 Transformers 微调为 RNN

本研究旨在将预训练 Transformer 转换为其高效循环对应物，在维持准确性的同时提高效率，并提出一种交换再微调的流程。

Mar, 2021

建模分层结构的重要性与循环神经网络

比较循环神经网络和非循环神经网络对于建模层级结构的能力，发现循环神经网络在这方面的重要性。

Mar, 2018

论 Transformer 识别形式语言的能力和限制

本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力，并探讨了其中各组件的作用，发现相比于 LSTMs，在某些行为建模上有一定优势，同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。

Sep, 2020

Transformer 的表征能力与局限性

本研究通过分析注意力层及其所在的变形器模型的表示能力，探讨这些模型相对于其他架构的优势和劣势，并重点关注了它们的内在复杂度参数，例如宽度、深度和嵌入维度。在正面方面，我们提出了一个稀疏平均任务，并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长，而变形器的复杂性仅随着输入规模的对数增长；此外，我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面，我们提出了一个三元组检测任务，其中注意力层的复杂性随输入规模线性增长；考虑到这种情况在实践中似乎很少出现，我们还提出了一些自然变种，可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值，以及稀疏平均作为原型注意任务的作用，甚至在三元组检测的分析中也有用处。

Jun, 2023

RNNs 并非变形金刚（尚未如此）：上下文检索的关键瓶颈

本研究探讨了递归神经网络（RNNs）和变压器（Transformers）在解决算法问题时的表示能力差距，发现通过 Chain-of-Thought 提示，RNNs 能够提高性能，但无法与 Transformers 靠近，而 RNNs 通过增强上下文检索能力的技术，如 RAG 和添加单个 Transformer 层，可以解决所有多项式时间可解问题，从而消除与 Transformers 之间的表示差距。

Feb, 2024

通过图算法理解 Transformer 推理能力

Transformer 自动缩放机制、算法推理能力的研究（深度、宽度、额外标记数）及在图推理任务中的优秀表现。

May, 2024