自适应结构稀疏注意力的长环境 LLM 推理近无损加速

Jun, 2024

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention

Qianchao Zhu, Jiangfei Duan, Chang Chen, Siran Liu, Xiuhong Li...

TL;DR本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。

Abstract

large language models (LLMs) now support extremely long context windows, but the quadratic complexity of vanilla attention results in significantly long Time-to-First-Token (TTFT) latency. Existing approaches to address this complexity require additional pretraining or finetuning, and

large language models sparse attention ttft latency sampleattention flashattention

发现论文，激发创造

超级关注力：近线性时间的长篇长文本关注力

我们提出了一个名为 HyperAttention 的近似注意力机制，用于解决大型语言模型（LLMs）中使用的复杂长上下文所带来的计算挑战。通过引入两个参数来衡量问题的难度，我们能够实现线性时间采样算法，即使矩阵具有无界的条目或较大的稳定秩。HyperAttention 具有模块化设计，容易集成其他快速底层实现，特别是 FlashAttention。实证上，通过利用局部敏感哈希（LSH）来识别大条目，HyperAttention 优于现有方法，在与 FlashAttention 等最先进解决方案相比，获得了显著的速度改进。我们验证了 HyperAttention 在不同长上下文数据集上的实证性能，例如，ChatGLM2 的推理时间得以加快 50％，而困惑度从 5.6 增加到 6.3。对于更大的上下文长度，例如 131k，并采取因果屏蔽，HyperAttention 在单个注意层上实现了 5 倍的加速。

Oct, 2023

HiP 注意力：带有分层注意力修剪的稀疏次二次注意力

我们提出了一种名为 HiP 的新方法，通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T)，空间复杂度从 O (T^2) 降低到 O (T)，并且能够扩展到数百万个令牌的预训练 LLM 应用中。

Jun, 2024

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

Quest: 查询感知稀疏性用于高效长上下文 LLM 推断

长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的 KV 缓存选择算法来加速自注意力机制，该算法通过仅加载前 K 个关键 KV 缓存页面来显著提高自注意力的速度。

Jun, 2024

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

超长词注意力近似的一遍流式算法在亚线性空间中

部署大型语言模型在涉及长文本的流式应用中面临着内存消耗和时间复杂度的挑战。本文介绍了一种新的算法，通过节约存储空间并保持较低的错误率，在流式应用中高效地处理大型语言模型。

Nov, 2023

自选注意力范围加速大型语言模型推理

训练大型语言模型自我选择注意力跨度可以加快解决现实世界任务的自回归推理速度。

Apr, 2024

高效的无限上下问 Transformer 与无限注意力

该研究介绍了一种有效的方法，用于将基于 Transformer 的大型语言模型扩展到无限长的输入，同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术，它将压缩性记忆融入到传统的注意力机制中，并在单个 Transformer 块中集成了被屏蔽的局部注意力和长期线性注意力机制。我们在长文本语言建模、1M 序列长度密钥上下文块检索和 500K 长度的书籍摘要任务上展示了我们方法的有效性，使用 1B 和 8B 规模的大型语言模型。我们的方法引入了最小化的有界内存参数，并实现了 LLMs 的快速流式推理。

Apr, 2024

SparQ 注意力：高带宽效率的 LLM 推理

通过选择性提取缓存历史记录，使用 SparQ Attention 技术可以提高大型语言模型的推理吞吐量，减少注意力块中的内存带宽需求，同时无需修改预训练设置或进行额外的微调，通过在多个下游任务上评估 Llama 2 和 Pythia 模型，展示了 SparQ Attention 如何在不损失准确性的情况下降低注意力内存带宽需求最多八倍。

Dec, 2023