重塑注意力：使用 Performer

ICLRSep, 2020

Rethinking Attention with Performers

Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane...

TL;DR本文介绍 Performers，这是 Transformer 结构，可以通过使用一种称为 FAVOR + 的新方法来估计常规（softmax）全秩注意力 Transformers，其具有可证明的准确性，但仅使用线性（而不是二次）空间和时间复杂性，而不依赖于任何先验知识，如稀疏度或低秩性。Performers 是线性结构，可以与常规 Transformers 完全兼容，并具有较强的理论保证。在各种任务上对 Performers 进行了测试，并展示了其在各自领域内对其他有效稀疏和密集关注方法的竞争力，展示了 Performers 所利用的新型关注学习范式的效果。

Abstract

We introduce performers, transformer architectures which can estimate regular (softmax) full-rank-attention Transformers with provable accuracy, but using only linear (as opposed to quadratic) space and time comp

performers transformer architectures softmax attention-kernels fast attention via positive orthogonal random features approach kernelizable attention mechanisms

发现论文，激发创造

利用线性可扩展长上下文变换器进行蛋白质掩码语言建模

本文介绍了一种名为 Performer 的新 Transformer 模型，它通过 Fast Attention Via Orthogonal Random features (FAVOR) 实现了线性标度并具有子二次空间复杂度和强大的理论保证，用于模拟蛋白质序列建模等复杂任务具有显著的有效性。

Jun, 2020

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021

PolySketchFormer：基于草图的快速 Transformer 用于多项式核函数

该研究论文通过使用多项式函数和多项式取样法，替代基于 softmax 的注意力机制，以及提出基于区块的算法，实现了一个能够在线性时间内计算多项式注意力机制的实用线性变换器架构，从而显著提高了大规模上下文下的注意力机制的速度。

Oct, 2023

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

亚线性内存：如何使 Performers SLiM

在深度学习方面，使用 Transformer 架构的计算成本很高，使用近期提出的各种线性自我关注机制来解决，观察到 Performers 具有极大的计算灵活性，并且可以在训练期间仅占用 O（1）的内存，为去中心化和民主化的深度学习做出贡献。

Dec, 2020

线性复杂度随机自注意力机制

本文提出了一种基于自归一化重要性采样器的线性随机化注意力机制，结合了随机特征关注性的表达性和计算效率，能够以线性时间和空间复杂度近似整个 softmax 注意力，与随机特征关注性相比，具有很大的性能优势。

Apr, 2022

Softmax 的优势：揭示其在线性注意力上的性能优势

通过对 softmax 和线性注意机制进行全面的比较分析，我们揭示了 softmax 注意在大多数情况下优于线性注意的潜在原因。

Oct, 2023

随机特征注意力

提出了一种名为 RFA 的注意力机制，它能够有效地处理长序列，同时在语言模型和机器翻译任务方面表现出与常规 transformer 模型相似或更好的性能，并且在机器翻译实验中，RFA 的解码速度是普通 transformer 的两倍。

Mar, 2021

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023

无概率笼的标准化注意力

本文介绍了 softmax-attention 在几何上的局限性，并提出采用归一化代替 softmax 实现自我注意力，从而获得超参数和数据推断鲁棒性较强的通用结构。

May, 2020