Transformer 和循环体系结构在表示能力上的区别
最近在递归神经网络(RNN)架构方面取得的进展,例如 Mamba 和 RWKV,使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过,这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选定可解释性方法是否适用于这些新兴的递归神经网络架构。具体来说,我们专注于通过对比激活添加来控制模型输出,使用调整后的镜头引发潜在预测,并从针对特定条件下生成错误输出的模型中获取潜在知识。我们的结果表明,当应用于 RNN 时,这些技术大多是有效的,并且我们还展示了通过利用 RNN 的压缩状态,可以改善其中一些技术。
Apr, 2024
通过比较基于循环神经网络和 Transformer 架构的语言模型在人类语言处理方面的能力,本文揭示了 Transformer 在解释自定步调阅读时间和阅读过程中神经活动方面优于 RNN,并挑战了人类句子处理涉及循环和即时处理的普遍理念,并提供了线索检索的证据
May, 2020
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
本文系统研究了 Transformers 模型在模拟正则语言和反计数语言中的能力,并探讨了其中各组件的作用,发现相比于 LSTMs,在某些行为建模上有一定优势,同时也揭示了自我注意机制和位置编码对模型学习和泛化能力的影响。
Sep, 2020
本研究通过分析注意力层及其所在的变形器模型的表示能力,探讨这些模型相对于其他架构的优势和劣势,并重点关注了它们的内在复杂度参数,例如宽度、深度和嵌入维度。在正面方面,我们提出了一个稀疏平均任务,并证明了循环网络和前馈网络的复杂性随着输入规模的增大多项式增长,而变形器的复杂性仅随着输入规模的对数增长;此外,我们使用相同的构造来展示了变形器中大嵌入维度的必要性和作用。在消极方面,我们提出了一个三元组检测任务,其中注意力层的复杂性随输入规模线性增长;考虑到这种情况在实践中似乎很少出现,我们还提出了一些自然变种,可以通过注意力层有效地解决。证明技术强调了通信复杂度在变形器及其相关模型的分析中的价值,以及稀疏平均作为原型注意任务的作用,甚至在三元组检测的分析中也有用处。
Jun, 2023
本研究探讨了递归神经网络(RNNs)和变压器(Transformers)在解决算法问题时的表示能力差距,发现通过 Chain-of-Thought 提示,RNNs 能够提高性能,但无法与 Transformers 靠近,而 RNNs 通过增强上下文检索能力的技术,如 RAG 和添加单个 Transformer 层,可以解决所有多项式时间可解问题,从而消除与 Transformers 之间的表示差距。
Feb, 2024