将预训练的 Transformers 微调为 RNN

EMNLPMar, 2021

Finetuning Pretrained Transformers into RNNs

Jungo Kasai, Hao Peng, Yizhe Zhang, Dani Yogatama, Gabriel Ilharco...

TL;DR本研究旨在将预训练 Transformer 转换为其高效循环对应物，在维持准确性的同时提高效率，并提出一种交换再微调的流程。

Abstract

transformers have outperformed recurrent neural networks (RNNs) in natural language generation. But this comes with a significant computational cost, as the →

transformers recurrent neural networks attention mechanism autoregressive generation pretrained transformer

发现论文，激发创造

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020

R-Transformer：加强循环神经网络的 Transformer 模型

本文提出了 R-Transformer 模型，结合了 RNN 和多头注意力机制的优点，同时避免了它们各自的缺点，能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明，在大多数任务中，R-Transformer 优于最先进的方法。

Jul, 2019

门控循环神经网络发现注意力

近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络（RNNs）能够实现线性自注意力，这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程，我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性，并暗示某些 RNNs 可能在内部意外地实现了注意力机制。

Sep, 2023

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

大规模语言模型的线性化

通过线性变压器架构，降低预训练成本，提出了一种代价效益较高的线性变压器预训练方法 SUPRA，并在标准基准测试中取得了竞争性的性能。

May, 2024

Transformer 循环建模

研究表明，Transformer 模型虽然仅基于注意力机制，但缺乏循环机制限制了其翻译能力的提高，本文提出使用一个额外的循环编码器来直接建模循环，并引入一种新的注意力循环网络来结合注意力和循环网络的优点，在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现，研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。

Apr, 2019

线性变压器及其递归和自指扩展的实际计算能力

通过研究具有线性化注意力的自回归 Transformer，即线性 Transformer（LT）或快速权重编程器（FWP），我们发现许多应用于标准 Transformer 的知名结果可以直接转移到 LTs / FWPs，并证明了最近提出的 FWP 扩展成功地克服了 LT 的某些限制，如在奇偶性问题上的泛化。

Oct, 2023

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

RWKV：为 Transformer 时代重新设计 RNN

本文提出了一种名为 Receptance Weighted Key Value（RWKV）的新型模型体系结构，它将 Transformer 的并行训练与 RNN 的高效推理相结合，并利用了线性注意机制，使模型既可以被阐释为 Transformer，也可以被阐释为 RNN，从而在训练期间并行计算，并在推理期间保持计算和记忆的复杂度恒定，从而成为第一个可扩展到数十亿参数的非 Transformer 架构，实验表明，RWKV 的表现与同样大小的 Transformer 相当，在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。

May, 2023