SEA：具有估计注意力掩码的稀疏线性注意力

Oct, 2023

SEA：具有估计注意力掩码的稀疏线性注意力

SEA: Sparse Linear Attention with Estimated Attention Mask

Heejun Lee, Jina Kim, Jeffrey Willette, Sung Ju Hwang

TL;DRSEA 提出了稀疏线性注意力机制，通过基于核的线性注意力估计注意力矩阵，然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似，以解决 transformers 在处理长序列时的复杂性问题，并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。

Abstract

The transformer architecture has made breakthroughs in recent years on tasks which require modeling pairwise relationships between sequential elements, as is the case in natural language understanding. However, transformers struggle with long sequences due to the →

transformer architecture quadratic complexity sparse linear attention interpretable attention matrix knowledge distillation

发现论文，激发创造

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

Explicit Sparse Transformer: 明确稀疏转换器 —— 通过明确选择实现集中注意力

提出了一种名为显式稀疏 Transformer 的新模型，其通过选择最相关的片段来改进全局上下文的注意力集中度，展示了在自然语言处理和计算机视觉任务方面的优越表现，并实现了与稀疏注意力方法可比或更好的结果，但显著减少了训练和测试时间。

Dec, 2019

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

SEAT: 稳定且可解释的注意力

本文提出 SEAT，即稳定且可解释的注意力机制。通过与其他基线方法的比较，研究者发现 SEAT 可以更好地保持注意力的可解释性和稳定性，同时保持较高的准确性。

Nov, 2022

稀疏注意力与线性单元

本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型，该模型采用 ReLU 激活函数来代替 softmax 函数，通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明，ReLA 模型在机器翻译任务中表现良好，且实现效率高，同时能够实现高稀疏率和头部多样性。

Apr, 2021