Transformer 是多状态循环神经网络

Jan, 2024

Transformers are Multi-State RNNs

Matanel Oren, Michael Hassid, Yossi Adi, Roy Schwartz

TL;DR通过实验证明，解码器 - 只转换器实际上可以被概念化为无限多状态的循环神经网络（RNN）的一种变体，而预训练转换器可以通过固定隐藏状态的大小转换为有限多状态的 RNN。我们引入了一种简单的转换策略 TOVA，实验证明 TOVA 在长距离任务中优于其他基准策略，与完整（无限）模型几乎持平，并且在某些情况下只使用原始缓存大小的 1/8。此研究结果表明，转换器解码器语言模型在实践中常表现为 RNN，并提供了减轻其最痛苦的计算瓶颈之一（缓存内存大小）的选择。

Abstract

transformers are considered conceptually different compared to the previous generation of state-of-the-art NLP models - recurrent neural networks (rnns). In this work, we demonstrate that decoder-only

transformers rnns multi-state rnns cache compression techniques tova

发现论文，激发创造

用 Transformer 网络探测水文预测的极限

本文研究发现，普通 Transformer 结构在水文建模方面的性能不如 LSTM 结构；去除循环结构的变体可以与 LSTM 相媲美，但是与当前最先进技术相比性能并不突出。

Jun, 2023

关于循环模型在长序列中的复兴：变形器时代的调研和研究机会

深度学习中基于 Transformer 和循环神经网络的顺序处理对于处理长序列数据和无限长度序列数据具有重要意义。

Feb, 2024

Transformer 可解释性转移到 RNN 中吗？

最近在递归神经网络（RNN）架构方面取得的进展，例如 Mamba 和 RWKV，使得 RNN 在语言建模困惑度和下游评估方面与同等规模的变压器相匹配或超过，这表明未来的系统可能会建立在全新的架构之上。本文研究了最初设计用于变压器语言模型的选定可解释性方法是否适用于这些新兴的递归神经网络架构。具体来说，我们专注于通过对比激活添加来控制模型输出，使用调整后的镜头引发潜在预测，并从针对特定条件下生成错误输出的模型中获取潜在知识。我们的结果表明，当应用于 RNN 时，这些技术大多是有效的，并且我们还展示了通过利用 RNN 的压缩状态，可以改善其中一些技术。

Apr, 2024

将预训练的 Transformers 微调为 RNN

本研究旨在将预训练 Transformer 转换为其高效循环对应物，在维持准确性的同时提高效率，并提出一种交换再微调的流程。

Mar, 2021

具有 Transformer 的内存高效的持续学习

使用预训练 Transformers 并扩展它们与 Adapters，我们开发了一种方法来增量训练模型处理任务序列，成功地避免了灾难性遗忘并且在多个任务上表现良好。

Mar, 2022

关于 Transformer 模型的长程能力

通过对 Transformer 架构进行最小的修改，引入长距离任务的归纳偏差、位置性等重要特性以提升性能，并为成功捕捉长距离依赖关系确定了关键属性。

Nov, 2023

R-Transformer：加强循环神经网络的 Transformer 模型

本文提出了 R-Transformer 模型，结合了 RNN 和多头注意力机制的优点，同时避免了它们各自的缺点，能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明，在大多数任务中，R-Transformer 优于最先进的方法。

Jul, 2019

Transformer 学习 HMM 的局限性

该研究探讨了基于 Transformer 的架构在学习隐藏马尔科夫模型 (HMMs) 及其变种方面的性能。通过广泛的实验证明，Transformer 在训练速度和测试精度方面始终不如循环神经网络 (RNNs)。此外，研究还揭示了 Transformer 的深度与其能够有效学习的最长序列长度之间的关系，并通过实验证明了一种名为块 Chain-of-Thought (CoT) 的变种可以帮助 Transformer 模型减小评估误差且学习更长的序列。最后，理论结果证明了 Transformer 在近似具有对数深度的 HMMs 时的表达能力。

Jun, 2024

自适应深度变压器

本文介绍了一种 Transformer 模型，它可以在网络的不同阶段进行输出预测，并调整每个步骤所应用的不同图层，以调整计算量和模型容量。通过对 IWSLT 德英翻译的实验，我们的方法与 well tuned 换基础变压器的精度相匹配，同时只使用不到四分之一的解码器层数。

Oct, 2019

基于贝叶斯神经网络的语言模型用于语音识别

提出一种普遍的贝叶斯学习框架，利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性，使用神经结构搜索自动选择优化网络内部组件，并使用有效的推断方法来降低计算成本，并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证，相对于基线 LSTM-RNN 和 Transformer LMs，在困惑度和字错误率方面均取得了一致的性能提升。

Aug, 2022