稀疏Sinkhorn注意力

Feb, 2020

Sparse Sinkhorn Attention

Yi Tay, Dara Bahri, Liu Yang, Donald Metzler, Da-Cheng Juan

TL;DR本文提出了稀疏Sinkhorn注意力机制，可以通过一种新的可微分排序方法来学习生成序列的置换，并用其计算局部窗口内的准全局注意力来提高注意力模块的存储效率，同时提出了新颖的算法创新，其中包括Causal Sinkhorn平衡和SortCut动态序列截断方法，实验结果表明，该方法在算法排序、语言建模、像素级图像生成和文本分类等方面与传统注意力和基于Sparse Transformers的高效Transformer模型相比具有竞争力且性能更优。

Abstract

We propose sparse sinkhorn attention, a new efficient and sparse method for learning to attend. Our method is based on differentiable sorting of internal representations. Concretely, we introduce a meta sorting network that learns to generate latent permutations over sequences. Given s

发现论文，激发创造

一种用于稀疏和结构化神经注意力的正则化框架

提出了一种基于平滑的最大值算子的新的稀疏和结构化的注意力机制，它不仅包括softmax和稀疏max作为特例，还可以融合现代结构惩罚，可以应用于神经网络中，在文本蕴含、机器翻译和句子摘要等任务中表现良好，提高了可解释性并保持性能优越。

May, 2017

利用稀疏变换器生成长序列

本文介绍了一种称为Sparse Transformers的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在Enwik8，CIFAR-10，和ImageNet-64等基准数据集上创造出新的最优表现。

Apr, 2019

基于内容的稀疏注意力路由转换网络

本研究提出了Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线K均值的稀疏路由模块，将注意力的总体复杂度从$O(n^2d)$降至$O(n^{1.5}d)$，并在Wikitext-103和ImageNet-64上表现出了良好的性能。

Mar, 2020

SAC: 通过稀疏自适应连接加速和结构化自注意力

本文介绍 Sparse Adaptive Connection（SAC）方法，将输入序列视为图，并通过构建关注边，以改进任务特定性能，优化了自注意力机制。通过在图形表示学习和图像分类中实施的广泛实验，证明了 SAC 在减少内存成本的同时，可以与最先进的模型竞争。

Mar, 2020

$O(n)$ 连接已足够表达力：稀疏 Transformer 的通用逼近性

本研究提出一种稀释注意力机制，以解决Transformer网络在输入序列长度较长时的计算成本过高的问题，并证明其能够普遍逼近任何序列到序列的函数，而且具有比稠密模型更低的复杂度，最后通过实验结果验证该机制的有效性在自然语言处理任务中。

Jun, 2020

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了FlashAttention以容纳一大类稀疏性注意力模式，其中包括关键/查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进FlashAttention的性能。不牺牲困惑度的情况下，我们将transformer语言模型的训练速度分别提高了2.0倍和3.3倍，对于长度为8k和16k的序列。

Jun, 2023

SEA：具有估计注意力掩码的稀疏线性注意力

SEA提出了稀疏线性注意力机制，通过基于核的线性注意力估计注意力矩阵，然后使用top-k选择生成对完整注意力矩阵的稀疏近似，以解决transformers在处理长序列时的复杂性问题，并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练transformers的复杂性。

Oct, 2023

TaylorShift: 使用 Taylor-Softmax 将自注意力的复杂性从平方级转换为线性级（以及反向转换）

TaylorShift是一种新的Taylor softmax重构方法，能够在线性时间和空间内计算完整的token-to-token交互，提高了Transformers处理长序列的效率，并且在进行分类任务时不会降低准确性。

Mar, 2024

SinkLoRA：增强效率与聊天能力的大型长文本语言模型

扩展Transformer模型以适应更长的序列长度是一项关键挑战，本文提出了SinkLoRA作为应对策略，通过改进工作分配和应用高效的缓存压缩算法来提高模型性能。

Jun, 2024

Sparser更快且更简洁：用于长程Transformer的高效稀疏注意力机制

通过引入SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024