Feb, 2024

FAST: 可因子化注意力提升 Transformer 速度

TL;DR通过引入可分解的关注机制,我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N),并保持了注意力矩阵的完整表示,具有稀疏性和全连接关系。经过各种标准设置的测试,结果表明我们的注意力机制具有稳定的性能,并在自我注意力被使用的多种应用领域中具有重要潜力。