Apr, 2024
TransformerFAM:反馈注意力即工作记忆
TransformerFAM: Feedback attention is working memory
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar
TL;DR我们提出了一种名为反馈注意力记忆(FAM)的新型 Transformer 架构,利用反馈循环使网络能够关注自身的潜在表示,从而促进 Transformer 内部的工作记忆的出现,使其能够处理无限长的序列。通过实验证明,TransformerFAM 在长文本任务中显著改善了 Transformer 的性能,无论模型大小为 1B、8B 还是 24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。