基于 Top-k 注意力的内存高效 Transformer

Jun, 2021

基于 Top-k 注意力的内存高效 Transformer

Memory-efficient Transformers via Top-$k$ Attention

Ankit Gupta, Guy Dar, Shaya Goodman, David Ciprut, Jonathan Berant

TL;DR本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Abstract

Following the success of dot-product attention in Transformers, numerous approximations have been recently proposed to address its quadratic complexity with respect to the input length. While these variants are memory and compute efficient, it is not possible to directly use them with

dot-product attention memory-efficient approximation multi-head attention layers performer t5

发现论文，激发创造

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

聚类注意力实现快速 Transformer

本文提出聚类注意力机制以解决 transformers 模型在处理长序列时，注意力矩阵的求解复杂度很高的问题，同时在计算预定义聚类的质心时，能够处理自由形式的注意力机制。

Jul, 2020

KVT：使用 k-NN 注意力增强视觉 Transformers

本文提出了一种 K-NN 自注意力机制，具有更好的速度和准确率，且适用于各种不同种类的 transformer 结构，从而可以提高图像识别的性能。

May, 2021

Sparser 更快且更简洁：用于长程 Transformer 的高效稀疏注意力机制

通过引入 SPARSEK Attention，将自注意机制的计算和内存障碍降到最低，提供线性时间复杂度和恒定的内存占用，实现了更高效的长序列处理和管理。

Jun, 2024

用于高效本地注意力的学习查询

本文提出了一种名为 query and attend（QnA）的新型 shift-invariant local attention 层，将其并入分层视觉 transformer 模型，并证明其在速度和内存复杂度方面的改善，同时又能实现与最先进的模型相当的准确度。

Dec, 2021

精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制

LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。

May, 2024

重塑注意力：使用 Performer

本文介绍 Performers，这是 Transformer 结构，可以通过使用一种称为 FAVOR + 的新方法来估计常规（softmax）全秩注意力 Transformers，其具有可证明的准确性，但仅使用线性（而不是二次）空间和时间复杂性，而不依赖于任何先验知识，如稀疏度或低秩性。Performers 是线性结构，可以与常规 Transformers 完全兼容，并具有较强的理论保证。在各种任务上对 Performers 进行了测试，并展示了其在各自领域内对其他有效稀疏和密集关注方法的竞争力，展示了 Performers 所利用的新型关注学习范式的效果。

Sep, 2020

线性时间变压器的潜在注意力

在传统的 transformer 模型中，标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法，将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用，通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比，标准的下一个记号预测的时间复杂度与序列长度成线性关系，而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当，但允许在标准 attention 不可行的背景窗口范围内进行扩展。

Feb, 2024

快速多极注意力：一种长序列的分而治之注意机制

Transformer-based models have achieved state-of-the-art performance, but the quadratic complexity of self-attention limits their applicability to long sequences; Fast Multipole Attention addresses this issue by reducing time and memory complexity, while maintaining a global receptive field with a hierarchical approach.

Oct, 2023

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022