多尺度高分辨率视觉 Transformer 用于语义分割

Nov, 2021

多尺度高分辨率视觉 Transformer 用于语义分割

Multi-Scale High-Resolution Vision Transformer for Semantic Segmentation

Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li...

TL;DRHRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成，探索异构分支设计，减少线性层中的冗余并增强注意力块的表现力，从而在 ADE20K 和 Cityscapes 数据集达到 50.20％和 83.16％的 mIoU 优化性能和效率，比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU，参数节省 28％，FLOPs 减少 21％。

Abstract

vision transformers (ViTs) have emerged with superior performance on computer vision tasks compared to convolutional neural network (CNN)-based models. However, ViTs are mainly designed for image classification that generate single-scale low-resolution representations, which makes dens

vision transformers hrvit semantic segmentation multi-scale representations efficiency

发现论文，激发创造

HIRI-ViT：高分辨率输入下的视觉 Transformer 尺度扩展

一种基于高分辨率输入的新型混合主干网络 (HIRI-ViT)，通过将典型的卷积神经网络操作分解为两个并行的卷积神经网络分支来构建，一个直接以高分辨率特征为输入，但使用更少的卷积操作，另一个首先进行下采样，然后在低分辨率特征上使用更多的卷积操作，通过对 ImageNet、COCO 和 ADE20K 数据集的实验表明了 HIRI-ViT 的优越性。

Mar, 2024

HSViT：水平可扩展的视觉 Transformer

这篇论文介绍了一种新型的水平可伸缩视觉转换器 (HSViT)，通过引入新的图像级特征嵌入和设计创新的水平可伸缩架构，以减少模型的层数和参数数量，并促进 ViT 模型在多个节点上的协同训练和推理，从而实现比现有方案高多达 10% 的 top-1 准确率，证明了其在保持归纳偏差方面的优越性。

Apr, 2024

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

使用视觉 Transformer 进行语义分割：一项调查

调查了不同的 ViT 架构用于语义分割的性能和使用基准数据集对其进行比较。

May, 2023

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

SegViT: 纯视觉 Transformer 的语义分割

本文讲述了使用 Vision Transformers 来进行语义分割的能力，提出了 SegVit 模型，并介绍了 Attention-to-Mask（ATM）模块和基于查询的下采样（QD）和上采样（QU）技术，用于构建 Shrunk 结构来减小计算量。实验证明，使用 ATM 模块的 SegVit 模型在 ADE20K 数据集上优于使用常规 ViT 骨干网络的 SegVit 模型，并在 COCO-Stuff-10K 和 PASCAL-Context 数据集上达到了新的排名最佳性能。

Oct, 2022

一个简单的单尺度视觉 Transformer 用于物体定位和实例分割

本文提出了一种简单的视觉 Transformer 设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

医学图像分割的视觉 Transformer 近期综述

医学图像分割是各种医疗应用中至关重要的一环，能够实现准确的诊断、治疗规划和疾病监测。最近，视觉变换器（ViTs）作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器（HVTs）的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外，还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。

Dec, 2023

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023