基于内容的稀疏注意力路由转换网络

ACLMar, 2020

基于内容的稀疏注意力路由转换网络

Efficient Content-Based Sparse Attention with Routing Transformers

Aurko Roy, Mohammad Saffar, Ashish Vaswani, David Grangier

TL;DR本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Abstract

self-attention has recently been adopted for a wide range of sequence modeling problems. Despite its effectiveness, self-attention suffers from quadratic compute and memory requirements with respect to sequence l

self-attention sparse attention routing transformer sequence modeling efficiency gains

发现论文，激发创造

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

BiFormer: 具有双层路由注意力的视觉 Transformer

介绍了一种新的基于动态稀疏注意力和双层路由的注意力机制，用于实现内容感知的计算分配；其中，提出了一个名为 BiFormer 的新型通用视觉 Transformer，采用 “查询自适应” 的方式进行计算，以提高计算效率，并在图像分类、物体检测和语义分割等计算机视觉任务中取得了有效的结果。

Mar, 2023

利用稀疏变换器生成长序列

本文介绍了一种称为 Sparse Transformers 的神经网络架构，该架构通过稀疏的注意力矩阵因式分解和其他一些技术，可以更有效地处理长序列等任务，并在 Enwik8，CIFAR-10，和 ImageNet-64 等基准数据集上创造出新的最优表现。

Apr, 2019

对长文本进行的本地自注意力机制以提高文档检索效率

本文提出了一种局部自注意力机制，用于解决检索过程中考虑前 n 个单词导致系统检索长文档时出现偏差的问题，并在 TREC 2019 深度学习排行榜任务上取得了显著的检索质量提升。

May, 2020

基于查询导向的稀疏 Transformer 的长文档排名

本文介绍了一种名为 QDS-Transformer 的算法，它在 Transformer 自注意力机制的基础上，设计了稀疏的查询导向注意力机制，以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配，同时还具有稀疏性和计算效率。实验证明，QDS-Transformer 模型在全监督和少样本 TREC 排名基准中具有稳定和强大的优势。

Oct, 2020

自注意力矩阵的表达能力

本文研究了 Transformer 网络中的自注意力矩阵，重点分析了稀疏模式的逼近。我们证明了通过固定自注意力参数，采用不同的输入即可逼近各种稀疏矩阵，并提出了一种基于随机映射技术的构造性证明和算法。尤其是，在保持矩阵元素比率不变的精度下，仅需要 $log L$（L 为序列长度）的 $ d $ 即可逼近任何稀疏矩阵。

Jun, 2021

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

稀疏 Transformer 视觉跟踪

通过引入稀疏注意力机制和双头预测器，成功地解决了基于 Transformer 模型的视觉跟踪任务中自注意力机制关注背景信息而影响性能的问题，并在 LaSOT、GOT-10k、TrackingNet 和 UAV123 等数据集中表现出显著的跟踪性能。相比 TransT，我们的方法将训练时间缩短了 75％。

May, 2022