Oct, 2023

近无限背景下的分块 Transformer 环形注意力

TL;DR传统的 Transformer 架构由于内存需求限制了其处理长序列的能力,而我们提出的 Ring Attention 方法通过分块计算自注意力和重叠通信的方式,提高了内存利用效率,允许处理更长的输入序列,从而消除了设备内存的限制,同时在语言建模任务上取得了显著的性能提升。