Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

Jun, 2024

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

Chao Lou, Zixia Jia, Zilong Zheng, Kewei Tu

TL;DR通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Abstract

Accommodating long sequences efficiently in autoregressive transformers, especially within an extended context window, poses significant challenges due to the quadratic computational complexity and substantial KV memory requirements inherent in self-attention mechanisms. In this work,

autoregressive transformers sparsek attention sparse attention language modeling long-range dependencies

发现论文，激发创造

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

自适应结构稀疏注意力的长环境 LLM 推理近无损加速

本文提出了 SampleAttention，一种自适应结构化的稀疏注意力机制，通过捕捉稀疏模式和列条纹模式来减少时间到第一个令牌的延迟，并在大规模语言模型中取得了几乎没有准确性损失的效果。

Jun, 2024

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021

Explicit Sparse Transformer: 明确稀疏转换器 —— 通过明确选择实现集中注意力

提出了一种名为显式稀疏 Transformer 的新模型，其通过选择最相关的片段来改进全局上下文的注意力集中度，展示了在自然语言处理和计算机视觉任务方面的优越表现，并实现了与稀疏注意力方法可比或更好的结果，但显著减少了训练和测试时间。

Dec, 2019

Loki: 用于高效稀疏注意力的低秩键

我们提出了一种基于低维空间计算注意力的稀疏注意力方法 Loki，该方法在推理阶段可以更好地保持模型的效力，并通过减少数据移动和计算成本来加快注意力计算。

Jun, 2024

基于高斯分布输入的自然稀疏注意力

通过对注意力机制中稀疏性的理论分析，揭示了注意力分数稀疏性的内在特性及其对计算效率的影响，并为优化大型语言模型的计算框架提供了一个理论检验，为更可扩展和高效的人工智能系统铺平了道路。

Apr, 2024

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

SEA：具有估计注意力掩码的稀疏线性注意力

SEA 提出了稀疏线性注意力机制，通过基于核的线性注意力估计注意力矩阵，然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似，以解决 transformers 在处理长序列时的复杂性问题，并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。

Oct, 2023