May, 2023

RWKV:为 Transformer 时代重新设计 RNN

TL;DR本文提出了一种名为 Receptance Weighted Key Value(RWKV)的新型模型体系结构,它将 Transformer 的并行训练与 RNN 的高效推理相结合,并利用了线性注意机制,使模型既可以被阐释为 Transformer,也可以被阐释为 RNN,从而在训练期间并行计算,并在推理期间保持计算和记忆的复杂度恒定,从而成为第一个可扩展到数十亿参数的非 Transformer 架构,实验表明,RWKV 的表现与同样大小的 Transformer 相当,在序列处理任务中为权衡计算效率和模型性能迈出了重要的一步。