Apr, 2024

TransformerFAM:反馈注意力即工作记忆

TL;DR我们提出了一种名为反馈注意力记忆(FAM)的新型 Transformer 架构,利用反馈循环使网络能够关注自身的潜在表示,从而促进 Transformer 内部的工作记忆的出现,使其能够处理无限长的序列。通过实验证明,TransformerFAM 在长文本任务中显著改善了 Transformer 的性能,无论模型大小为 1B、8B 还是 24B。这些结果展示了使大型语言模型能够处理无限长序列的潜力。