Oct, 2023

超级关注力:近线性时间的长篇长文本关注力

TL;DR我们提出了一个名为 HyperAttention 的近似注意力机制,用于解决大型语言模型(LLMs)中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度,我们能够实现线性时间采样算法,即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计,容易集成其他快速底层实现,特别是 FlashAttention。实证上,通过利用局部敏感哈希(LSH)来识别大条目,HyperAttention 优于现有方法,在与 FlashAttention 等最先进解决方案相比,获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能,例如,ChatGLM2 的推理时间得以加快 50%,而困惑度从 5.6 增加到 6.3。对于更大的上下文长度,例如 131k,并采取因果屏蔽,HyperAttention 在单个注意层上实现了 5 倍的加速。