可训练前馈核线性自注意力近似

Nov, 2022

Linear Self-Attention Approximation via Trainable Feedforward Kernel

Uladzislau Yorsh, Alexander Kovalenko

TL;DR本文旨在将可训练的核方法的思想扩展到逼近 Transformer 架构的自注意机制，以实现更快的计算和更高的准确率。

Abstract

In pursuit of faster computation, efficient transformers demonstrate an impressive variety of approaches -- models attaining sub-quadratic attention complexity can utilize a notion of sparsity or a low-rank appro

efficient transformers sub-quadratic attention complexity sparsity kernelized approaches self-attention mechanism

发现论文，激发创造

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020

Linformer: 线性复杂度的自注意力

本文提出了一种新的自注意力机制 ——Linformer，该机制通过近似自注意力矩阵，将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n)，从而显著提高了 Transformer 模型的内存和时间效率。

Jun, 2020

XNOR-FORMER: 长语音 Transformer 准确近似学习

本研究开发出一种新型的线性变压器，通过检验自我关注中关键查询产品的特性，发现其在语音识别和语音摘要方面优于现有的方法。

Oct, 2022

基于内容的稀疏注意力路由转换网络

本研究提出了 Routing Transformer，它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块，将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$，并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。

Mar, 2020

Transformer 分解：通过核的视角统一理解 Transformer 的注意力机制

该论文通过内核视角呈现关注力的新公式，将输入流应用于内核平滑器，提出用对称内核对输入流建模的注意力机制变种，以较少的计算成本实现与最先进模型相媲美的竞争性表现，实验证明不同的内核构建策略能够应用于神经机器翻译和序列预测这两个广泛使用的任务。

Aug, 2019

基于 Top-k 注意力的内存高效 Transformer

本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法，基于对查询进行分块的计算，在多个数据集上的评估表明其准确性接近于 vanilla attention。

Jun, 2021

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

扁平 Transformer：使用专注线性注意力的视觉 Transformer

我们提出了一种新颖的线性关注模块，通过引入简单但有效的映射函数和高效的排名恢复模块，提高了自注意力的表达能力，同时保持了低计算复杂度。大量实验证明，我们的线性关注模块适用于各种先进的视觉 Transformer，并在多个基准测试中实现了持续改进的性能。

Aug, 2023

SASQuaTCh：一种带有基于核的自注意力的新型变分量子变换器架构的学习

利用基于核操作学习的自我注意力机制的量子电路，我们提出了 Self-Attention Sequential Quantum Transformer Channel (SASQuaTCh) 模型，该模型能够有效地表示视觉变换网络的深层特征，并展示其在简化分类问题上的实用性。

Mar, 2024

SEA：具有估计注意力掩码的稀疏线性注意力

SEA 提出了稀疏线性注意力机制，通过基于核的线性注意力估计注意力矩阵，然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似，以解决 transformers 在处理长序列时的复杂性问题，并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。

Oct, 2023