探索视觉 Transformer 层在语义分割中的选择
本文提出了一种简单的视觉 Transformer 设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
本研究首次探索视觉变换器(ViT)的全局上下文学习潜力以实现密集视觉预测,编码图像作为一系列补丁并学习全局上下文,使 ViT 可以捕获更强的长距离依赖信息,提出的分割转换器(SETR)在 ADE20K 和 Pascal Context 数据集上取得了出色表现,同时提出了一系列分层本地 - 全局转换器,架构由局部关注(在窗口内)和全局关注(跨窗口)构成,对于各种密集预测任务具有吸引人的性能
Jul, 2022
本文提出了一种基于 Transformer 的端到端图像压缩和分析模型,实现云端图像分类应用,并通过两步训练策略解决了率失真精度优化问题。实验结果表明,该模型在图像压缩和分类任务中均具有有效性。
Dec, 2021
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文提出了一个基于 Transformer 的框架,通过聚合特征来处理细粒度视觉分类任务,其中引入了一种新的令牌选择模块(MAWS)来引导网络有效地选择具有判别性的令牌,从而实现了最先进的性能。
Jul, 2021
Transformer 在计算机视觉领域得到应用,其在自然语言处理方面表现出色,超越了传统卷积神经网络并取得了新的最先进结果。通过将图像分割成多个局部补丁,即 “视觉句子”,ViT 实现了这一目标。然而,图像所包含的信息是庞大而复杂的,仅关注 “视觉句子” 级别的特征是不够的。为了进一步提高性能,TNT 模型提出了进一步划分图像为更小的补丁,即 “视觉词”,得到了更准确的结果。Transformer 的核心是多头注意力机制,传统的注意力机制忽略了不同注意力头之间的相互作用。为了减少冗余并提高利用率,我们引入了嵌套算法,并将 Nested-TNT 应用于图像分类任务。实验证实,所提出的模型在数据集 CIFAR10 上比 ViT 和 TNT 分别提高了 2.25%、1.1%,在数据集 FLOWERS102 上分别提高了 2.78%、0.25% 的分类性能。
Apr, 2024
通过对简单的 Vision Transformer(ViT)模型进行高性能的分割实验,本文提出了 PlainSeg 和 PlainSeg-Hier 两种简洁高效的模型,包括了最后一个特征图的 3x3 卷积和 Transformer 编码器或解码器,并结合了高分辨率特征和更大的学习率,实验证明这些模型在语义分割中具有高性能和高效率,是评估基础模型转移能力的有力工具。
Oct, 2023
使用 Vision Transformers 进行语义分割的研究,提出了 SegViTv2,通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本,同时在持续学习的环境下实现近乎零遗忘。实验结果表明,SegViT 优于当前流行的语义分割方法。
Jun, 2023