HiP 注意力:带有分层注意力修剪的稀疏次二次注意力
本文提出了 SampleAttention,一种自适应结构化的稀疏注意力机制,通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟,并在大规模语言模型中取得了几乎没有准确性损失的效果。
Jun, 2024
我们提出了一个名为 HyperAttention 的近似注意力机制,用于解决大型语言模型(LLMs)中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度,我们能够实现线性时间采样算法,即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计,容易集成其他快速底层实现,特别是 FlashAttention。实证上,通过利用局部敏感哈希(LSH)来识别大条目,HyperAttention 优于现有方法,在与 FlashAttention 等最先进解决方案相比,获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能,例如,ChatGLM2 的推理时间得以加快 50%,而困惑度从 5.6 增加到 6.3。对于更大的上下文长度,例如 131k,并采取因果屏蔽,HyperAttention 在单个注意层上实现了 5 倍的加速。
Oct, 2023
提出了 SpAtten,这是一种高效的算法 - 架构协同设计,利用标记稀疏性、头部稀疏性和量化机会,通过级联剪枝和渐进式量化来减少注意力计算和内存访问,实验结果证明其在 30 个基准测试中平均减少 DRAM 访问 10 倍,并且相对于其他加速器和处理器能达到巨大的加速和能耗降低。
Dec, 2020
本文介绍了 Hyena,一种亚二次的 attention 替代方法,它通过交错的启发式参数化长卷积和数据控制开关的方式进行构建,能够有效地解决 Transformers 中 quadratic cost 的问题,并且在大规模自然语言处理任务中实现了 Transformer 模型一致的精度,同时减少了 20% 的训练计算资源。
Feb, 2023
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
May, 2024
本研究提出了一种高效的基于矩阵结构的层次注意力方法,并证明了这种方法在自然语言和视觉任务中捕捉层次结构的归纳偏差是有效的,相比于其他次二次方提议在 Long Range Arena 基准测试上平均提高了 6 个百分点,在 One-Billion Word 数据集上也取得了新的 SOTA 测试困惑度。
Jul, 2021
通过选择性提取缓存历史记录,使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量,减少注意力块中的内存带宽需求,同时无需修改预训练设置或进行额外的微调,通过在多个下游任务上评估 Llama 2 和 Pythia 模型,展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。
Dec, 2023
通过引入 SPARSEK Attention,将自注意机制的计算和内存障碍降到最低,提供线性时间复杂度和恒定的内存占用,实现了更高效的长序列处理和管理。
Jun, 2024
提出了一种线性时间的自注意力模型(LISA),它通过计算可微的类别分布直方图来实现全上下文关注,同时避免了计算和存储复杂度高的问题,并且在顺序推荐任务中取得较好的性能。
May, 2021
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023