使用视觉 Transformer 进行语义分割：一项调查

May, 2023

使用视觉 Transformer 进行语义分割：一项调查

Semantic Segmentation using Vision Transformers: A survey

Hans Thisanke, Chamli Deshan, Kavindu Chamith, Sachith Seneviratne, Rajith Vidanaarachchi...

TL;DR调查了不同的 ViT 架构用于语义分割的性能和使用基准数据集对其进行比较。

Abstract

semantic segmentation has a broad range of applications in a variety of domains including land coverage analysis, autonomous driving, and medical image analysis. convolutional neural networks (CNN) and

semantic segmentation convolutional neural networks vision transformers architecture models benchmarking datasets

发现论文，激发创造

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

医学图像分割的视觉 Transformer 近期综述

医学图像分割是各种医疗应用中至关重要的一环，能够实现准确的诊断、治疗规划和疾病监测。最近，视觉变换器（ViTs）作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器（HVTs）的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外，还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。

Dec, 2023

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

RangeViT：用于自动驾驶 3D 语义分割的视觉 Transformer

本文应用 Vision Transformers 和卷积解码器改进了基于投影的 3D 语义分割方法以获得更好的结果，并在 nuScenes 和 SemanticKITTI 数据集上超过了现有的投影方法。

Jan, 2023

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

基于 Transformer 的视觉分割：一份综述

本文综述了基于 transformer 的视觉分割技术，总结了近期的进展，详细介绍了各种方法设计和应用，并对该领域的未来研究方向进行了探讨。

Apr, 2023

多尺度高分辨率视觉 Transformer 用于语义分割

HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成，探索异构分支设计，减少线性层中的冗余并增强注意力块的表现力，从而在 ADE20K 和 Cityscapes 数据集达到 50.20％和 83.16％的 mIoU 优化性能和效率，比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU，参数节省 28％，FLOPs 减少 21％。

Nov, 2021

卷积神经网络和视觉变换器在时尚 MNIST 分类中的应用：文献综述

对卷积神经网络（CNN）和视觉 Transformer（ViT）在图像分类领域的比较分析进行了研究，特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集，研究了 CNN 和 ViT 的独特属性。研究发现，CNN 长期以来一直是图像分类的基石，而 ViT 引入了一种创新的自注意机制，可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别，同时研究了使用这两种架构的最新方法，旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性，因为 CNN 擅长识别局部模式，而 ViT 擅长抓住整体上下文，这使得它们的组合成为提高图像分类性能的一种有前途的策略。

Jun, 2024

SegViT: 纯视觉 Transformer 的语义分割

本文讲述了使用 Vision Transformers 来进行语义分割的能力，提出了 SegVit 模型，并介绍了 Attention-to-Mask（ATM）模块和基于查询的下采样（QD）和上采样（QU）技术，用于构建 Shrunk 结构来减小计算量。实验证明，使用 ATM 模块的 SegVit 模型在 ADE20K 数据集上优于使用常规 ViT 骨干网络的 SegVit 模型，并在 COCO-Stuff-10K 和 PASCAL-Context 数据集上达到了新的排名最佳性能。

Oct, 2022

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021