将预训练的 Transformers 微调为 RNN
通过使用线性核特征图将自注意力表示为线性点积,并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N),我们的线性变压器实现比循环神经网络快 4000 倍,但在自回归预测上达到了与基本变压器类似的性能。
Jun, 2020
本文提出了 R-Transformer 模型,结合了 RNN 和多头注意力机制的优点,同时避免了它们各自的缺点,能够在不使用位置嵌入的情况下有效捕捉序列中的本地结构和全局长期依赖关系。通过广泛的实验评估表明,在大多数任务中,R-Transformer 优于最先进的方法。
Jul, 2019
近期的研究发现具备线性循环层和前馈路径的带有乘性门控模式的循环神经网络(RNNs)能够实现线性自注意力,这是 Transformer 的主要组成部分之一。通过对一组训练过的 RNNs 进行逆向工程,我们发现在实践中梯度下降法会找到我们构建的机制。这项研究结果强调了神经网络中乘性交互的重要性,并暗示某些 RNNs 可能在内部意外地实现了注意力机制。
Sep, 2023
本研究提出了一种基于图循环网络的语言模型预训练方法,其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer,用于自监督学习的时候有较高的潜力。
Sep, 2022
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限,本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法,在强化学习问题中实现了性能的提升。
Oct, 2023
研究表明,Transformer 模型虽然仅基于注意力机制,但缺乏循环机制限制了其翻译能力的提高,本文提出使用一个额外的循环编码器来直接建模循环,并引入一种新的注意力循环网络来结合注意力和循环网络的优点,在 WMT14 英汉和 WMT17 中英机器翻译任务中取得了良好的表现,研究同时发现通过一个单循环层将源序列和目标序列相连可以显著提高模型性能。
Apr, 2019
通过研究具有线性化注意力的自回归 Transformer,即线性 Transformer(LT)或快速权重编程器(FWP),我们发现许多应用于标准 Transformer 的知名结果可以直接转移到 LTs / FWPs,并证明了最近提出的 FWP 扩展成功地克服了 LT 的某些限制,如在奇偶性问题上的泛化。
Oct, 2023
比较研究了多种 Transformer 模型的性能,发现长序列的改进版本在内容选择和查询引导解码方面有优势,但在处理远距离的信息和近似误差上有欠缺的地方。
Feb, 2022
本文提出了一种名为 Receptance Weighted Key Value(RWKV)的新型模型体系结构,它将 Transformer 的并行训练与 RNN 的高效推理相结合,并利用了线性注意机制,使模型既可以被阐释为 Transformer,也可以被阐释为 RNN,从而在训练期间并行计算,并在推理期间保持计算和记忆的复杂度恒定,从而成为第一个可扩展到数十亿参数的非 Transformer 架构,实验表明,RWKV 的表现与同样大小的 Transformer 相当,在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。
May, 2023