线性复杂度随机自注意力机制

ICMLApr, 2022

Linear Complexity Randomized Self-attention Mechanism

Lin Zheng, Chong Wang, Lingpeng Kong

TL;DR本文提出了一种基于自归一化重要性采样器的线性随机化注意力机制，结合了随机特征关注性的表达性和计算效率，能够以线性时间和空间复杂度近似整个 softmax 注意力，与随机特征关注性相比，具有很大的性能优势。

Abstract

Recently, random feature attentions (RFAs) are proposed to approximate the softmax attention in linear time and space complexity by linear

random feature attentions softmax attention linear time and space complexity self-normalized importance samplers linear randomized attention

发现论文，激发创造

随机特征注意力

提出了一种名为 RFA 的注意力机制，它能够有效地处理长序列，同时在语言模型和机器翻译任务方面表现出与常规 transformer 模型相似或更好的性能，并且在机器翻译实验中，RFA 的解码速度是普通 transformer 的两倍。

Mar, 2021

通过控制变量实现高效关注

通过控制变量的方法，我们将随机特征关注（RFA）分解成多个控制变量估计器的和，从而揭示了 RFA 和标准 softmax attention 之间的逼近差距。我们开发了一种更灵活的控制变量形式，得到了一种新颖的注意机制，该机制在保持线性复杂度的同时，显著降低了逼近差距，对于视觉和语言任务都比最新的高效注意机制表现更好。

Feb, 2023

可训练前馈核线性自注意力近似

本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Nov, 2022

线性对数正态注意力与无偏集中度

通过分析自注意力机制的注意力矩阵分布和其专注能力，并引入一种新的自注意力机制（线性对数正态注意力），我们试图研究其与原始自注意力的分布和专注行为的模拟度量，实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案，为提高 Transformer 模型的可扩展性提供了有前景的途径。

Nov, 2023

仅需采样（几乎）一次：通过伯努利采样实现线性代价自注意力

本文介绍了一种基于二项分布采样的局部敏感哈希（LSH）注意力机制，可以将自注意力的复杂度从二次降到线性。我们在 GLUE 和 LRA 基准测试中测试该算法并发现性能优于标准的预训练变压器模型和其他自注意力方法。

Nov, 2021

稀疏注意力与线性单元

本研究介绍了一种名为 ReLA 的新型的、可实现稀疏注意的模型，该模型采用 ReLU 激活函数来代替 softmax 函数，通过额外的门控函数或专门的初始化实现了训练稳定性。实验结果表明，ReLA 模型在机器翻译任务中表现良好，且实现效率高，同时能够实现高稀疏率和头部多样性。

Apr, 2021

具有关系感知核自注意力的连续推荐

该研究提出了一种基于变换器的关系感知内核自注意力机制（RKSA），它采用了变换器的自注意力机制，并加入了概率模型和潜空间，从而将变换器的自注意力与连续推荐相结合，实现了推荐上下文的建模与个性化推荐。

Nov, 2019

表格学习的自强化注意力机制

本研究介绍了一种名为 SRA 的注意力机制，通过使用权重向量来学习可解释的表示，并在基准模型的端到端组合中有效应用于合成和现实世界的不平衡数据。

May, 2023

RFAConv：创新的空间注意力和标准卷积操作

提出了一种新的注意力机制 —— 接收场注意，该机制不仅专注于感受野的空间特征，而且为大尺寸卷积核提供了有效的注意力权重，实现了用接收场空间特征替换空间特征的新方法，提高了网络的性能。

Apr, 2023

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020