Jun, 2023

大规模序列中通过稀疏闪存注意力加速因果注意力

TL;DR我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。