通过使用线性核特征图将自注意力表示为线性点积,并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N),我们的线性变压器实现比循环神经网络快 4000 倍,但在自回归预测上达到了与基本变压器类似的性能。
Jun, 2020
本文提出了一种新的自注意力机制 ——Linformer,该机制通过近似自注意力矩阵,将自注意力机制的时间和空间复杂度从 O (n^2) 降低为 O (n),从而显著提高了 Transformer 模型的内存和时间效率。
本研究开发出一种新型的线性变压器,通过检验自我关注中关键查询产品的特性,发现其在语音识别和语音摘要方面优于现有的方法。
Oct, 2022
本研究提出了 Routing Transformer,它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块,将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$,并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。
Mar, 2020
该论文通过内核视角呈现关注力的新公式,将输入流应用于内核平滑器,提出用对称内核对输入流建模的注意力机制变种,以较少的计算成本实现与最先进模型相媲美的竞争性表现,实验证明不同的内核构建策略能够应用于神经机器翻译和序列预测这两个广泛使用的任务。
Aug, 2019
本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。
Jun, 2021
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限,本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法,在强化学习问题中实现了性能的提升。
Oct, 2023
我们提出了一种新颖的线性关注模块,通过引入简单但有效的映射函数和高效的排名恢复模块,提高了自注意力的表达能力,同时保持了低计算复杂度。大量实验证明,我们的线性关注模块适用于各种先进的视觉 Transformer,并在多个基准测试中实现了持续改进的性能。
Aug, 2023
利用基于核操作学习的自我注意力机制的量子电路,我们提出了 Self-Attention Sequential Quantum Transformer Channel (SASQuaTCh) 模型,该模型能够有效地表示视觉变换网络的深层特征,并展示其在简化分类问题上的实用性。
Mar, 2024
SEA 提出了稀疏线性注意力机制,通过基于核的线性注意力估计注意力矩阵,然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似,以解决 transformers 在处理长序列时的复杂性问题,并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。