Fastformer：加性注意力足矣

Aug, 2021

Fastformer: Additive Attention Can Be All You Need

Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie

TL;DR本文介绍了 Fastformer 模型，这是一种基于加法注意力的高效 Transformer 模型，与现有的 Transformer 模型相比，它可以更有效地建模长文本，并且具有线性复杂度。

Abstract

transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on →

transformer text understanding additive attention context modeling efficiency

发现论文，激发创造

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

FAST: 可因子化注意力提升 Transformer 速度

通过引入可分解的关注机制，我们将注意力机制的计算和内存复杂度从 O (N^2) 降低到 O (N)，并保持了注意力矩阵的完整表示，具有稀疏性和全连接关系。经过各种标准设置的测试，结果表明我们的注意力机制具有稳定的性能，并在自我注意力被使用的多种应用领域中具有重要潜力。

Feb, 2024

Fovea Transformer：高效的结构化精细到粗糙注意力长上下文建模

Fovea Transformer 是一种以长 - context 为中心的 Transformer 模型，通过在输入序列中构建一个多尺度树来提高模型对全局依赖性的捕捉能力，并在长 - context 摘要任务上取得了最先进的性能。

Nov, 2023

Fast-FNet: 通过高效傅里叶层加速 Transformer Encoder 模型

本研究比较了基于 Transformer 的语言模型中的注意力机制和傅里叶变换，并提出了几种采用更高效的傅里叶变换的模型架构，以提高模型效率。

Sep, 2022

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

Multiformer：基于可配置头部的 Transformer 模型的直接语音翻译

本文提出了一种基于 Transformer 的新模型 Multiformer，它可以根据任务需要在不同的头上应用不同的注意力机制，从而有力地解决了长序列和相邻 token 冗余等问题。同时，我们发现各头权重分布均匀的模型可以取得更好的效果。

May, 2022

Reformer：高效 Transformer

本文介绍了两种技术以提高 Transformer 的效率：使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层，减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。

Jan, 2020