May, 2024

注意力作为一个 RNN

TL;DRTransformers 在序列建模中取得了重大突破,但计算开销较大,本文提出了一种新的高效计算 attention 的方法,引入了名为 Aaren 的 attention-based 模块,使其能够像 Transformers 一样并行训练,同时像传统的 RNN 一样高效地更新新的 tokens,从而在多个序列问题上取得了可比较的性能,同时具有更高的时间和内存效率。