随机特征注意力

ICLRMar, 2021

Random Feature Attention

Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith...

TL;DR提出了一种名为 RFA 的注意力机制，它能够有效地处理长序列，同时在语言模型和机器翻译任务方面表现出与常规 transformer 模型相似或更好的性能，并且在机器翻译实验中，RFA 的解码速度是普通 transformer 的两倍。

Abstract

transformers are state-of-the-art models for a variety of sequence modeling tasks. At their core is an attention function which models pairwise interactions between the inputs at every timestep. While

transformers attention rfa long sequences efficiency

发现论文，激发创造

线性复杂度随机自注意力机制

本文提出了一种基于自归一化重要性采样器的线性随机化注意力机制，结合了随机特征关注性的表达性和计算效率，能够以线性时间和空间复杂度近似整个 softmax 注意力，与随机特征关注性相比，具有很大的性能优势。

Apr, 2022

通过控制变量实现高效关注

通过控制变量的方法，我们将随机特征关注（RFA）分解成多个控制变量估计器的和，从而揭示了 RFA 和标准 softmax attention 之间的逼近差距。我们开发了一种更灵活的控制变量形式，得到了一种新颖的注意机制，该机制在保持线性复杂度的同时，显著降低了逼近差距，对于视觉和语言任务都比最新的高效注意机制表现更好。

Feb, 2023

利用线性可扩展长上下文变换器进行蛋白质掩码语言建模

本文介绍了一种名为 Performer 的新 Transformer 模型，它通过 Fast Attention Via Orthogonal Random features (FAVOR) 实现了线性标度并具有子二次空间复杂度和强大的理论保证，用于模拟蛋白质序列建模等复杂任务具有显著的有效性。

Jun, 2020

NeRF 注意力机制的端到端视图合成

本文提出了一种基于 NeRFA 的 seq2seq 形式，用于视图合成，在四个数据集上优于 NeRF 和 NerFormer，并在单场景视角合成和类别中心的新视图合成两个方面取得了最新技术成果。

Jul, 2022

将预训练的 Transformers 微调为 RNN

本研究旨在将预训练 Transformer 转换为其高效循环对应物，在维持准确性的同时提高效率，并提出一种交换再微调的流程。

Mar, 2021

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020

基于表示的孪生文本匹配中的选择性特征关注建模

基于表征的孪生网络在轻量级文本匹配中因其低部署和推理成本而变得流行。我们提出了 Feature Attention（FA），一种新颖的下游模块，旨在丰富嵌入特征之间的依赖建模。该模块动态调整对个体特征的强调，使网络更集中于对最终分类有重要贡献的特征。在 FA 的基础上，我们引入了一种名为 Selective Feature Attention（SFA）的动态 “选择” 机制，利用了堆叠 BiGRU Inception 结构。该模块通过遍历不同的堆叠 BiGRU 层，促进网络集中关注跨不同抽象级别的语义信息和嵌入特征，从而实现多尺度语义提取。FA 和 SFA 模块都能无缝集成到各种孪生网络中，并展示了即插即用的特性。对多样的文本匹配基线和基准进行的实验评估强调了建模特征注意力的必要性以及 “选择” 机制的优越性。

Apr, 2024

单个注意力层可以学到什么？基于随机特征的研究

注意力层是 Transformer 架构的核心组成部分，本研究对单个多头注意力层的学习和泛化进行了严格的理论研究，探讨了随机特征设置下注意力层对目标函数的表达能力、学习复杂度以及采样分布的影响等方面，实验证明了理论结果并展示了样本大小与目标函数复杂度之间的相互作用。

Jul, 2023

重塑注意力：使用 Performer

本文介绍 Performers，这是 Transformer 结构，可以通过使用一种称为 FAVOR + 的新方法来估计常规（softmax）全秩注意力 Transformers，其具有可证明的准确性，但仅使用线性（而不是二次）空间和时间复杂性，而不依赖于任何先验知识，如稀疏度或低秩性。Performers 是线性结构，可以与常规 Transformers 完全兼容，并具有较强的理论保证。在各种任务上对 Performers 进行了测试，并展示了其在各自领域内对其他有效稀疏和密集关注方法的竞争力，展示了 Performers 所利用的新型关注学习范式的效果。

Sep, 2020

Spectraformer: Transformer 的统一随机特征框架

使用不同的核逼近和核学习技术进行注意力的线性化已显示出潜力，本文引入了 Spectraformer，这是一个用于近似和学习 Transformer 线性化注意力核函数的统一框架，通过对多种组件函数和权重矩阵的组合进行实验证明，我们发现一种新的组合可以使训练时间快 23.4％，内存消耗低 25.2％，并且保持性能与原始 Transformer 相当。

May, 2024