一个无需关注机制的 Transformer

May, 2021

An Attention Free Transformer

Shuangfei Zhai, Walter Talbott, Nitish Srivastava, Chen Huang, Hanlin Goh...

TL;DR本研究提出了 Attention Free Transformer (AFT) 框架，它采用了一种高效的元素级别的矩阵运算，不需要使用点积自注意力机制，通过引入位置偏移可以降低存储复杂度，同时实现了全局连接与本地化结合的空间权重共享。在 CIFAR10、Enwik8 和 ImageNet-1K 等任务上，实验表明 AFT 框架显示出优秀的性能和高效性。

Abstract

We introduce attention free transformer (AFT), an efficient variant of transformers that eliminates the need for dot product self attention. In an AFT layer, the key and value are first combined with a set of lea

attention free transformer transformers position biases autoregressive modeling spatial weight sharing

发现论文，激发创造

共享注意力权重用于快速 Transformer

本文提出一种基于共享注意力权重和隐藏状态重用的快速、轻量级的注意力模型，用于加速 Transformer 机器翻译系统，在十项 WMT 和 NIST OpenMT 任务上实现了平均 1.3 倍的速度提升（几乎不降低 BLEU）和与 Aan 模型的 1.8 倍加速（比没有使用注意力缓存的基线高出 16 倍）。

Jun, 2019

CoAtNet：结合卷积和注意力处理不同数据尺寸

本篇研究介绍了 CoAtNets，这是一种基于 transformers 和卷积神经网络的混合模型，能够在图像识别领域取得最好的效果，相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。

Jun, 2021

从大型基础模型传递知识到小型下游模型

在下游模型中以更低的成本运行的小型任务特定的下游模型中如何将相关知识从越来越大的基础模型转化过来。通过使用预训练权重作为初始化的标准迁移学习仅转移有限的信息，并且通常会导致庞大的预训练架构。为了解决这些缺点，我们引入自适应特征传输（AFT），它仅在特征上运行，从而将预训练模型的选择与较小的下游模型分离。AFT 自适应地传输对执行下游任务最有用的预训练特征，使用简单的正则化方法添加最小的开销。在多个视觉、语言和多模态数据集上，与类似的计算成本的替代方法相比，AFT 实现了显著更好的下游性能。此外，AFT 可靠地将预训练模型的改进转化为下游性能的提升，即使下游模型的规模缩小了 50 倍以上，也能有效地传输多个预训练模型学到的互补信息。

Jun, 2024

针对视觉识别的上下文转换网络

该论文提出了一种新颖的 Transformer 风格模块，即 Contextual Transformer (CoT) 块，它完全利用输入键之间的情境信息来指导动态注意力矩阵的学习，从而增强了视觉表示能力，可作为更强大的骨干网。

Jul, 2021

无 Softmax 的线性变换器

提出 SOftmax-Free Transformer (SOFT)，其采用高斯核函数替代点积相似度，从而能够通过低秩矩阵分解逼近完整的自注意力矩阵，该模型能够明显提高现有 ViT 变体的计算效率，同时具有线性复杂度，且能够容纳更长的令牌序列，优化了准确率和复杂度之间的权衡。

Jul, 2022

FIT：远距离交错 Transformers

FIT 是一种基于 Transformer 的架构，具有高效的自我关注和自适应计算，它在高分辨率图像理解和生成任务中表现出良好的效果。

May, 2023

聚焦 Transformer：上下文缩放的对比训练

提出了一种名为 Focused Transformer（FoT）的技术，通过对称的学习过程来增强（键，值）空间的结构，从而提供更长的上下文长度，有效地解决了大型语言模型在处理长文本时的局限性。

Jul, 2023

AiATrack：基于 Transformer 的视觉跟踪关注层设计

提出改进注意力机制的注意力内注意（AiA）模块及优化特征聚合和信息传递的 Transformer 跟踪框架 AiATrack，在多个定位基准测试上实现了最先进的性能表现。

Jul, 2022

基于注意力过滤的医学图像分割的多维 Transformer

提出了一种面向医学图像分割的多维注意力变换器 (MDT-AF) 方法，通过重新设计补丁嵌入和自注意机制来解决医学图像分割中存在的低信噪比和特征表示容量有限的问题，并取得了当前最先进的性能。

May, 2024

Transformers 是 RNN：具有线性注意力的快速自回归 Transformers

通过使用线性核特征图将自注意力表示为线性点积，并利用矩阵积的结合律特性将复杂性从 O (N^2) 降至 O (N)，我们的线性变压器实现比循环神经网络快 4000 倍，但在自回归预测上达到了与基本变压器类似的性能。

Jun, 2020