Nyströmformer：一种基于 Nyström 方法的自注意力近似算法

AAAIFeb, 2021

Nyströmformer：一种基于 Nyström 方法的自注意力近似算法

Nyströmformer: A Nyström-Based Algorithm for Approximating Self-Attention

Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung...

TL;DR通过利用 Nyström 方法逼近标准的自注意力机制，在保证短序列数据表现不下降的情况下，提高了效率，扩大了长序列数据自注意力机制的适用范围。

Abstract

transformers have emerged as a powerful tool for a broad range of natural language processing tasks. A key component that drives the impressive performance of transformers is the →

transformers self-attention mechanism nyström method natural language processing efficiency

发现论文，激发创造

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

Longformer：长文档转换器

Longformer 是一种基于 Transformers 的模型，采用能够线性缩放序列长度的自注意力机制，使得处理数千个记号以上的文档变得容易；与先前的一些工作不同的是，Longformer 同时进行了预训练和下游任务的微调，并在 WikiHop 和 TriviaQA 等任务上取得了新的最优结果。此外，Longformer 还引入了 Longformer-Encoder-Decoder（LED）以支持长文档的生成序列对序列任务。

Apr, 2020

Skyformer：高斯核与 Nyström 方法重构自注意力

本文提出了 Skyformer 模型，借鉴了核机器的计算方法，通过将 softmax 结构替换为高斯核以稳定模型训练，并将 Nyström 方法调整为一个非半正定矩阵以加速计算，实验结果表明该模型不仅需要的计算资源更少，而且在大规模 Arena 基准测试中表现得不逊于完全自注意力机制。

Oct, 2021

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023

用全息降维表示重构自我关注

使用 Holographic Reduced Representations 方法重新构建自我注意力机制，将其实现为 Hrrformer，并在恶意软件检测中获得近乎最先进的准确性和极大的加速。

May, 2023

线性对数正态注意力与无偏集中度

通过分析自注意力机制的注意力矩阵分布和其专注能力，并引入一种新的自注意力机制（线性对数正态注意力），我们试图研究其与原始自注意力的分布和专注行为的模拟度量，实验结果在流行的自然语言基准测试中表明我们提出的线性对数正态注意力优于其他线性注意力替代方案，为提高 Transformer 模型的可扩展性提供了有前景的途径。

Nov, 2023

使用结构化矩阵增强的 X 转换器进行长序列时间序列预测

通过引入 Surrogate Attention Blocks 和 Surrogate FFN Blocks，提出了一种新颖的针对长序列时间序列预测问题的 Transformer 模型的架构设计，以提高模型的效率而不牺牲准确性。在涵盖了九个基于 Transformer 的模型的五个时间序列任务的广泛实验中，观察到平均性能提高了 9.45％，同时模型的大小降低了 46％。

May, 2024