低分辨率自注意力用于语义分割

Oct, 2023

Low-Resolution Self-Attention for Semantic Segmentation

Yu-Huan Wu, Shi-Chen Zhang, Yun Liu, Le Zhang, Xin Zhan...

TL;DR本文介绍了一种使用低分辨率自注意力机制的视觉 Transformer 模型，以较低的计算成本捕捉全局上下文，并在 ADE20K、COCO-Stuff 和 Cityscapes 数据集上表现出优于现有模型的性能。

Abstract

semantic segmentation tasks naturally require high-resolution information for pixel-wise segmentation and global context information for class prediction. While existing →

semantic segmentation vision transformers low-resolution self-attention global context encoder-decoder structure

发现论文，激发创造

具有增强自注意力的轻量级视觉 Transformer

本研究提出了 Lite Vision Transformer（LVT），一种新型的轻量级 transformer 网络，其中包含两种增强自注意力机制，以提高模型在移动部署中的性能表现，并在 ImageNet 识别、ADE20K 语义分割和 COCO 全景分割中具有优越性能。

Dec, 2021

从粗到细：分层像素整合用于轻量级图像超分辨率

本研究旨在设计一种新的关注区块，其见解来自于 SR 网络的局部归因图解释。我们使用轻量级全局像素访问模块处理全局区域，使用 Intra-Patch 自我关注模块处理局部区域，并使用级联补丁划分策略来提高恢复图像的感知质量。实验结果表明，我们的方法比最先进的轻量级 SR 方法表现更好。

Nov, 2022

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

快速注意力实时语义分割

该论文提出一种新的 CNN 模型结构和快速空间注意力机制，能够在实时高分辨率图像和视频上进行语义分割，同时实现更好的准确性和速度。在 Cityscapes 数据集中，该模型在单个 Titan X GPU 上实现了 74.4％ mIoU 的 72 FPS 和 75.5％ mIoU 的 58 FPS，比现有方法快约 50％，并保持相同的准确性。

Jul, 2020

高效语义分割的超像素变换器

通过使用超像素与现代 Transformer 框架相结合，本研究提出一种能在语义分割领域获得最先进性能的方法，通过学习将像素空间分解为低维超像素空间，并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息，最终实现了更高的计算效率和模型性能。

Sep, 2023

ELSA：增强的局部自注意力视觉变换器

本文通过从通道设置和空间处理两个方面综合调查了本地自注意力和其同行的性能，发现空间注意力的生成和应用是影响性能的关键因素，提出了增强型本地自注意力（ELSA）并通过实验验证其有效性。

Dec, 2021

LSAS: 轻量级次级注意机制缓解注意偏向问题

本文研究计算机视觉中深度神经网络由于其特征提取能力，会在图像中关注一些关键的像素区域，但我们通过量化和统计表明，DNN 存在严重的注意偏差问题；通过现有的自注意机制有一定的缓解，但仍然存在偏差，因此我们提出了一个轻量级的 LSAS 策略，通过高阶子注意模块来改进原始的自注意模块，并通过实验证明其有效性。

May, 2023

长短期 Transformer: 语言和视觉的高效 Transformer

提出了一种名为 “长短变压器” 的模型，其中使用自注意力机制处理长文本和高分辨率图像，同时引入了一种新型的远距离关注和短期关注机制，并采用双重归一化策略来处理两种注意力机制之间的规模差异。通过在多个语言和视觉任务中的表现，该方法优于现有的方法。

Jul, 2021

高效的长程注意力网络用于图像超分辨率

该论文提出了一种高效的长程注意力网络，使用变换器和转移学习结构可用于图像超分辨率，其中包括自我注意力机制、移位卷积和多尺度自我注意力模块。

Mar, 2022

多视角三维重建的长程分组变换器

基于 Transformer 的多视角三维重建算法中，引入长距离分组注意力机制（LGA）以处理来自不同视角的复杂图像令牌，从而提高模型学习效果，并通过进阶上采样解码器实现相对高分辨率的体素生成，实验结果验证了该方法在多视角重建中达到了 SOTA 准确性。

Aug, 2023