本篇论文提出了一种高效的局部注意力 (ELA) 方法,该方法通过引入 1D 卷积和分组归一化特征增强技术,实现了在不通过降维的情况下,精确定位感兴趣区域的目标,并且具备轻量级的实现。在 ImageNet、MSCOCO 和 Pascal VOC 数据集上的广泛评估表明,ELA 模块在图像分类、目标检测和语义分割等三个视觉任务中优于当前最先进的方法。
Mar, 2024
提出了一种名为 “长短变压器” 的模型,其中使用自注意力机制处理长文本和高分辨率图像,同时引入了一种新型的远距离关注和短期关注机制,并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现,该方法优于现有的方法。
Jul, 2021
本研究提出了 Lite Vision Transformer(LVT),一种新型的轻量级 transformer 网络,其中包含两种增强自注意力机制,以提高模型在移动部署中的性能表现,并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。
Dec, 2021
该论文提出了一种高效的长程注意力网络,使用变换器和转移学习结构可用于图像超分辨率,其中包括自我注意力机制、移位卷积和多尺度自我注意力模块。
Mar, 2022
本文介绍了一种使用低分辨率自注意力机制的视觉 Transformer 模型,以较低的计算成本捕捉全局上下文,并在 ADE20K、COCO-Stuff 和 Cityscapes 数据集上表现出优于现有模型的性能。
Oct, 2023
本研究提出了 LSG attention 机制以解决 Transformer 模型自注意力机制中违反 $O (n^2)$ 的限制,同时还提出了相应工具和方法用于新模型的训练和现有模型的调整。实验结果表明,LSG attention 机制在长文本的分类和摘要任务中效率优秀,也可以用于有效地扩展预训练模型的序列长度。
Oct, 2022
本文讨论了自我注意力(self-attention)在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献,发现了局部对角线模式,并提出用局部高效的自我注意力替代标准自我注意力,通过跳过标准自我注意力废弃的权重来提高模型的效率,但仍保持与基线性能相同。
Apr, 2022
本文研究计算机视觉中深度神经网络由于其特征提取能力,会在图像中关注一些关键的像素区域,但我们通过量化和统计表明,DNN 存在严重的注意偏差问题;通过现有的自注意机制有一定的缓解,但仍然存在偏差,因此我们提出了一个轻量级的 LSAS 策略,通过高阶子注意模块来改进原始的自注意模块,并通过实验证明其有效性。
May, 2023
本文提出一种新颖的本地自注意力模块 Slide Attention,使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习,适用于各种高级视觉 Transformer 模型,并在多项基准测试中实现了持续的性能改进。
Apr, 2023
本文提出了增强的自注意机制(ESA)用于鲁棒特征提取,并将其融合到 Transformer 网络的编码层中进行自动语音识别(ASR)任务,这一新模型被命名为 GNCformer。通过 Aishell-1 和 HKUST 数据集的实验证明,GNCformer 相较于 Transformer 网络,能分别提高 0.8% 和 1.2%的字符错误率(CER),并且只增加了 1.4M 的额外参数量。