探索视觉 Transformer 层在语义分割中的选择

May, 2023

探索视觉 Transformer 层在语义分割中的选择

Exploring vision transformer layer choosing for semantic segmentation

Fangjian Lin, Yizhe Ma, Shengwei Tian

TL;DR本文提出了一种名为 ViTController 的网络结构，用于动态自适应融合和特征选择，优于以往方法，可作为插件模块插入不同的网络。

Abstract

Extensive work has demonstrated the effectiveness of Vision Transformers. The plain vision transformer tends to obtain multi-scale features by selecting fixed layers, or the last layer of features aiming to achie

vision transformer multi-scale features adaptive fusion vitcontroller state-of-the-art methods

发现论文，激发创造

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

基于 Transformer 的端到端图像压缩和分析

本文提出了一种基于 Transformer 的端到端图像压缩和分析模型，实现云端图像分类应用，并通过两步训练策略解决了率失真精度优化问题。实验结果表明，该模型在图像压缩和分类任务中均具有有效性。

Dec, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

使用视觉 Transformer 进行语义分割：一项调查

调查了不同的 ViT 架构用于语义分割的性能和使用基准数据集对其进行比较。

May, 2023

特征融合视觉 Transformer 用于细粒度视觉分类

本文提出了一个基于 Transformer 的框架，通过聚合特征来处理细粒度视觉分类任务，其中引入了一种新的令牌选择模块（MAWS）来引导网络有效地选择具有判别性的令牌，从而实现了最先进的性能。

Jul, 2021

Nested-TNT: 多尺度特征处理的分层视觉 Transformer

Transformer 在计算机视觉领域得到应用，其在自然语言处理方面表现出色，超越了传统卷积神经网络并取得了新的最先进结果。通过将图像分割成多个局部补丁，即 “视觉句子”，ViT 实现了这一目标。然而，图像所包含的信息是庞大而复杂的，仅关注 “视觉句子” 级别的特征是不够的。为了进一步提高性能，TNT 模型提出了进一步划分图像为更小的补丁，即 “视觉词”，得到了更准确的结果。Transformer 的核心是多头注意力机制，传统的注意力机制忽略了不同注意力头之间的相互作用。为了减少冗余并提高利用率，我们引入了嵌套算法，并将 Nested-TNT 应用于图像分类任务。实验证实，所提出的模型在数据集 CIFAR10 上比 ViT 和 TNT 分别提高了 2.25%、1.1%，在数据集 FLOWERS102 上分别提高了 2.78%、0.25% 的分类性能。

Apr, 2024

简洁高性能的纯视觉变换语义分割

通过对简单的 Vision Transformer（ViT）模型进行高性能的分割实验，本文提出了 PlainSeg 和 PlainSeg-Hier 两种简洁高效的模型，包括了最后一个特征图的 3x3 卷积和 Transformer 编码器或解码器，并结合了高分辨率特征和更大的学习率，实验证明这些模型在语义分割中具有高性能和高效率，是评估基础模型转移能力的有力工具。

Oct, 2023

SegViTv2: 使用纯视觉 Transformer 探索高效持续语义分割

使用 Vision Transformers 进行语义分割的研究，提出了 SegViTv2，通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本，同时在持续学习的环境下实现近乎零遗忘。实验结果表明，SegViT 优于当前流行的语义分割方法。

Jun, 2023