ICLRMar, 2021

随机特征注意力

TL;DR提出了一种名为 RFA 的注意力机制,它能够有效地处理长序列,同时在语言模型和机器翻译任务方面表现出与常规 transformer 模型相似或更好的性能,并且在机器翻译实验中,RFA 的解码速度是普通 transformer 的两倍。