RRWKV: 捕捉 RWKV 中的长程依赖

Jun, 2023

RRWKV: Capturing Long-range Dependencies in RWKV

Leilei Wang

TL;DR本文提出了回顾性接收加权键值（RRWKV）架构，通过将回顾能力融入到 RWKV 中，有效地吸收信息，同时保持存储和计算效率，从而解决了 RWKV 架构的局限性，能够更好地捕捉长程依赖。

Abstract

Owing to the impressive dot-product attention, the transformers have been the dominant architectures in various natural language processing (NLP) tasks. Recently, the Receptance Weighted Key Value (RWKV) architec

transformers natural language processing rwkv architecture long-range dependencies retrospected receptance weighted key value

发现论文，激发创造

RWKV：为 Transformer 时代重新设计 RNN

本文提出了一种名为 Receptance Weighted Key Value（RWKV）的新型模型体系结构，它将 Transformer 的并行训练与 RNN 的高效推理相结合，并利用了线性注意机制，使模型既可以被阐释为 Transformer，也可以被阐释为 RNN，从而在训练期间并行计算，并在推理期间保持计算和记忆的复杂度恒定，从而成为第一个可扩展到数十亿参数的非 Transformer 架构，实验表明，RWKV 的表现与同样大小的 Transformer 相当，在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。

May, 2023

Vision-RWKV：高效可扩展的基于 RWKV 类架构的视觉感知

本研究介绍了 Vision-RWKV（VRWKV），这是一种从 NLP 领域的 RWKV 模型中修改而来并针对视觉任务进行了必要的改进的模型，它具有较低的空间聚合复杂性，能够高效处理高分辨率图像，无需窗口操作，并具有与 ViT 相媲美的分类性能，更快的速度和更低的内存使用，从而显示了 VRWKV 作为视觉感知任务的更高效替代品的潜力。

Mar, 2024

Diffusion-RWKV：为扩展扩散模型的 RWKV-Like 架构

该论文介绍了一种在图像生成任务中应用于扩散模型的一系列基于 NLP 中 RWKV 模型的架构，通过针对性的修改，使其能在高分辨率图像生成任务中高效处理，减少计算复杂度。在条件和无条件图像生成任务上的实验结果表明，Diffusion-RWKV 在 FID 和 IS 指标上达到或超过现有的 CNN 或基于 Transformer 的扩散模型的性能，同时显著减少总计算 FLOP 使用。

Apr, 2024

RWKV-TS：超越传统循环神经网络的时间序列任务

传统的循环神经网络在时间序列任务中曾占据主导地位，但最近在各个时间序列任务中逐渐衰退，因此我们设计了一种高效的基于循环神经网络的时间序列任务模型 RWKV-TS，该模型具有三个独特特点：（一）$O (L)$ 时间复杂度和内存使用的新型循环神经网络架构；（二）相较于传统循环神经网络更好地捕捉长期序列信息的能力；（三）具有高计算效率和有效规模扩展性的特点。通过大量实验，我们的 RWKV-TS 模型与最先进的基于 Transformer 或卷积神经网络模型相比具备竞争力的性能表现，特别值得注意的是 RWKV-TS 不仅性能可比，而且具有较低的延迟和内存使用。RWKV-TS 的成功鼓励了在时间序列领域中进一步探索和创新，其具备竞争性能、低延迟和高效内存使用的特点使其成为未来时间序列任务研究的有希望方向。

Jan, 2024

键值变换器

通过对 QKV 模式性能进行评估，我们发现一个结合了 2D 位置编码的不对称的 KV 变压器常常比 QKV 变压器更有效且需要更少的参数和计算。

May, 2023

增强时间变换循环神经网络的多个时间观点

我们引入了多个时间视角的概念，一种适用于循环神经网络（RNN）架构，以增强其对顺序数据的理解的新方法。我们将此方法应用于 Receptance Weighted Key Value（RWKV）架构，并取得了显著的改进效果，解决了在单个隐藏状态中保留所有历史信息的固有挑战。我们的方法通过最少的参数增加（甚至仅为原始参数数量的 0.04％），实现了这种改进。此外，多个时间视角所需的额外参数可以在最小的计算开销下进行微调，避免了完全的预训练需求。研究中包括的实证结果和剃除研究验证了我们方法的有效性，并展示了在多个基准测试中改进的性能。

Feb, 2024

关键词变换器：一种自注意力模型用于关键词检测

本研究旨在将 Transformer 架构应用于关键词检测中，引入了全自注意力架构，即 Keyword Transformer (KWT)，其不需要任何预训练或额外数据即可超越多项任务的现有表现，并在几种复杂模型中表现最好。通过在 Google 语音命令数据集上的表现，证明了该模型的优越性。

Apr, 2021

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

线性变压器及其递归和自指扩展的实际计算能力

通过研究具有线性化注意力的自回归 Transformer，即线性 Transformer（LT）或快速权重编程器（FWP），我们发现许多应用于标准 Transformer 的知名结果可以直接转移到 LTs / FWPs，并证明了最近提出的 FWP 扩展成功地克服了 LT 的某些限制，如在奇偶性问题上的泛化。

Oct, 2023

使用循环快速权重编程器超越线性变压器

通过在快速和慢速神经网络中加入循环来探索新的变化形式，提出一种新颖的循环快速权重编程模型（RFWPs），并在两个合成算法任务，语言模型和 Atari 2600 2D 游戏环境中评估了模型的效果。

Jun, 2021