视觉曼巴在遥感影像语义分割中的扫描策略重新思考：实验研究

May, 2024

视觉曼巴在遥感影像语义分割中的扫描策略重新思考：实验研究

Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study

PDF

Qinfeng Zhu, Yuan Fang, Yuanzhi Cai, Cheng Chen, Lei Fan

TL;DR深度学习方法在高分辨率遥感图像的语义分割中扮演重要角色，主要采用卷积神经网络（CNN）和视觉 Transformer（ViT）。然而，CNN 由于有限的感受野而受限，而 ViT 则面临二次复杂度的挑战。最近，Mamba 模型因具有线性复杂性和全局感受野而引发广泛关注。此类任务需要将图像序列化为与 Mamba 模型兼容的序列。许多研究工作探索了能够增强 Mamba 模型对图像理解的扫描策略，但是这些扫描策略的有效性仍不确定。我们通过对 LoveDA、ISPRS Potsdam 和 ISPRS Vaihingen 数据集进行广泛实验，全面地探究了主流扫描方向及其组合对遥感图像的语义分割的影响。结果表明，无论复杂性或所涉及的扫描方向数量如何，没有一种单一的扫描策略优于其他策略。对于高分辨率遥感图像的语义分割，一个简单的单一扫描方向已被证明足够。同时，我们推荐了未来研究的相关方向。

Abstract

deep learning methods, especially Convolutional Neural Networks (CNN) and Vision Transformer (ViT), are frequently employed to perform semantic segmentation of high-resolution remotely sensed images. However, CNN

deep learning methods semantic segmentation mamba model scanning strategies remotely sensed images

发现论文，激发创造

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了 Vision Mamba (ViM) 模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

RS3Mamba: 对遥感图像语义分割的视觉状态空间模型

该研究通过引入 Mamba 模型和协同完成模块，提出了一种新型双分支网络 RS3Mamba，用于遥感图像语义分割任务，并在 ISPRS Vaihingen 和 LoveDA Urban 数据集上进行了实验证明其有效性和潜力。

Apr, 2024

Samba: 遥感图像的语义分割与状态空间模型

该研究提出了一种针对高分辨率遥感图像的语义分割框架，名为 Samba，其采用编码器 - 解码器架构，使用 Samba 块作为编码器来高效地提取多层语义信息，以及 UperNet 作为解码器。在 LoveDA 数据集上的评估结果表明，Samba 在 LoveDA 上取得了前所未有的性能，为 Mamba 技术在这一特定应用中的性能设定了新的基准。

Apr, 2024

多尺度 VMamba: 层次化视觉状态空间模型

通过分析多次扫描策略在多尺度视觉任务中的成功原因，本研究介绍了 Multi-Scale Vision Mamba（MSVMamba）模型，采用多尺度二维扫描技术并整合了卷积前馈网络（ConvFFN），在有限参数下保留了 State Space Models（SSMs）在视觉任务中的卓越性能。

May, 2024

VMamba：视觉状态空间模型

基于卷积神经网络和视觉变换器，提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构，具有线性复杂度和全局感受野，并在图像分辨率增加时展现出更明显的优势。

Jan, 2024

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了 Mamba 模型的起源和核心见解，并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

MedMamba：针对医学图像分类的视觉蛇

Medical image classification using Vision Mamba, a novel Conv-SSM module that combines convolutional layers with state space model, demonstrates promising results in detecting lesions, establishing a new baseline for the field.

Mar, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

基于令牌化的马巴模型中的中央化马巴交叉扫描用于高光谱图像分类

利用创新的 Mamba-in-Mamba (MiM) 架构和利用 State Space Model (SSM) 的首次尝试，本研究提出了用于高光谱图像分类的 MiM 模型，通过改进的特征生成和集中方法以及改进的解码效率，优于现有基线和最先进方法，展示了其在高光谱应用中的效力和潜力。

May, 2024

VM-UNET-V2 在医学图像分割中重新思考 Vision Mamba UNet

在医学图像分割领域，CNN 和 Transformer 基于模型已经进行了深入研究。然而，CNN 对长距离依赖的建模能力有限，使得充分利用图像内的语义信息变得具有挑战性。另一方面，Transformer 的二次计算复杂性提出了挑战。最近，基于状态空间模型（SSMs）的方法，如 Mamba，被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能，而且保持了线性计算复杂性。受到 Mamba 架构的启发，我们提出了 Vision Mamba-UNetV2，引入了 Visual State Space（VSS）块来捕捉广泛的上下文信息，引入 Semantics and Detail Infusion（SDI）来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明，VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得

Mar, 2024