ELSA：增强的局部自注意力视觉变换器

Dec, 2021

ELSA：增强的局部自注意力视觉变换器

ELSA: Enhanced Local Self-Attention for Vision Transformer

Jingkai Zhou, Pichao Wang, Fan Wang, Qiong Liu, Hao Li...

TL;DR本文通过从通道设置和空间处理两个方面综合调查了本地自注意力和其同行的性能，发现空间注意力的生成和应用是影响性能的关键因素，提出了增强型本地自注意力（ELSA）并通过实验验证其有效性。

Abstract

self-attention is powerful in modeling long-range dependencies, but it is weak in local finer-level feature learning. The performance of local self-attention (LSA) is just on par with convolution and inferior to

self-attention local self-attention spatial processing enhanced local self-attention dynamic filters

发现论文，激发创造

ELA：深度卷积神经网络的高效局部注意力

本篇论文提出了一种高效的局部注意力 (ELA) 方法，该方法通过引入 1D 卷积和分组归一化特征增强技术，实现了在不通过降维的情况下，精确定位感兴趣区域的目标，并且具备轻量级的实现。在 ImageNet、MSCOCO 和 Pascal VOC 数据集上的广泛评估表明，ELA 模块在图像分类、目标检测和语义分割等三个视觉任务中优于当前最先进的方法。

Mar, 2024

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

高效的长程注意力网络用于图像超分辨率

该论文提出了一种高效的长程注意力网络，使用变换器和转移学习结构可用于图像超分辨率，其中包括自我注意力机制、移位卷积和多尺度自我注意力模块。

Mar, 2022

低分辨率自注意力用于语义分割

本文介绍了一种使用低分辨率自注意力机制的视觉 Transformer 模型，以较低的计算成本捕捉全局上下文，并在 ADE20K、COCO-Stuff 和 Cityscapes 数据集上表现出优于现有模型的性能。

Oct, 2023

LSG 注意力机制：将预训练的 Transformer 推广到长序列

本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制，同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明，LSG attention 机制在长文本的分类和摘要任务中效率优秀，也可以用于有效地扩展预训练模型的序列长度。

Oct, 2022

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

LSAS: 轻量级次级注意机制缓解注意偏向问题

本文研究计算机视觉中深度神经网络由于其特征提取能力，会在图像中关注一些关键的像素区域，但我们通过量化和统计表明，DNN 存在严重的注意偏差问题；通过现有的自注意机制有一定的缓解，但仍然存在偏差，因此我们提出了一个轻量级的 LSAS 策略，通过高阶子注意模块来改进原始的自注意模块，并通过实验证明其有效性。

May, 2023

Slide-Transformer: 具有局部自注意力的分层视觉变压器

本文提出一种新颖的本地自注意力模块 Slide Attention，使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习，适用于各种高级视觉 Transformer 模型，并在多项基准测试中实现了持续的性能改进。

Apr, 2023

GNCformer 增强的自注意力机制用于自动语音识别

本文提出了增强的自注意机制（ESA）用于鲁棒特征提取，并将其融合到 Transformer 网络的编码层中进行自动语音识别（ASR）任务，这一新模型被命名为 GNCformer。通过 Aishell-1 和 HKUST 数据集的实验证明，GNCformer 相较于 Transformer 网络，能分别提高 0.8% 和 1.2％的字符错误率（CER），并且只增加了 1.4M 的额外参数量。

May, 2023