VMamba：视觉状态空间模型

Jan, 2024

VMamba: Visual State Space Model

Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie...

TL;DR基于卷积神经网络和视觉变换器，提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构，具有线性复杂度和全局感受野，并在图像分辨率增加时展现出更明显的优势。

Abstract

convolutional neural networks (CNNs) and vision transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear comple

convolutional neural networks vision transformers global receptive fields dynamic weights visual state space model

发现论文，激发创造

多尺度 VMamba: 层次化视觉状态空间模型

通过分析多次扫描策略在多尺度视觉任务中的成功原因，本研究介绍了 Multi-Scale Vision Mamba（MSVMamba）模型，采用多尺度二维扫描技术并整合了卷积前馈网络（ConvFFN），在有限参数下保留了 State Space Models（SSMs）在视觉任务中的卓越性能。

May, 2024

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了 Vision Mamba (ViM) 模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

高效 VMamba：轻量级 Mamba 的孔隙选择扫描

基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上，但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发，探索了视觉状态空间模型在轻量级模型设计中的潜力，并提出了一种新的高效模型变体 EfficientVMamba，通过有效的跳跃采样集成一种基于空洞的选择性扫描方法，构成旨在利用全局和局部表征特征的构件。此外，我们还调查了 SSM 模块与卷积之间的整合，并引入了一种高效的视觉状态空间块，结合了额外的卷积分支，进一步提高了模型的性能。实验结果表明，EfficientVMamba 降低了计算复杂性，同时在各种视觉任务中取得了有竞争力的结果。例如，我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。

Mar, 2024

VmambaIR：图像修复的视觉状态空间模型

我们提出了 VmambaIR，这是一种综合图像恢复任务的方法，它将线性复杂度的状态空间模型引入其中，通过有效地建模图像信息在各个方向上的流动来克服了状态空间模型的单向建模限制，并在图像去雨、单幅图像超分辨率和实际图像超分辨率等多个图像恢复任务上取得了最先进的性能。

Mar, 2024

视觉曼巴：具有双向状态空间模型的高效视觉表示学习

本文提出了一种新的通用计算机视觉基础模型 Vim，该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示，并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能，同时具有显著提高的计算和内存效率。

Jan, 2024

Vim-F：从频域学习的受益视觉状态空间模型

使用频率和空间域进行扫描的 Vim-F 模型通过在原有特征图上添加频谱信息，能够建模统一的视觉表示，充分利用 ViM 的高效长序列建模能力，并利用卷积干扰获取更多本地关联性，进一步提高性能。

May, 2024

VM-UNET-V2 在医学图像分割中重新思考 Vision Mamba UNet

在医学图像分割领域，CNN 和 Transformer 基于模型已经进行了深入研究。然而，CNN 对长距离依赖的建模能力有限，使得充分利用图像内的语义信息变得具有挑战性。另一方面，Transformer 的二次计算复杂性提出了挑战。最近，基于状态空间模型（SSMs）的方法，如 Mamba，被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能，而且保持了线性计算复杂性。受到 Mamba 架构的启发，我们提出了 Vision Mamba-UNetV2，引入了 Visual State Space（VSS）块来捕捉广泛的上下文信息，引入 Semantics and Detail Infusion（SDI）来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明，VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得

Mar, 2024

Res-VMamba：使用具有深度残差学习的选择性状态空间模型进行细粒度食品类别视觉分类

该研究介绍了一个被学术界低估的食物数据集 CNFOOD-241，并在 VMamba 模型中引入了残差学习框架，同时利用原始 VMamba 架构中固有的全局和局部状态特征。研究结果显示 VMamba 在细粒度和食物分类上超过了当前的 SOTA 模型，并提出的 Res-VMamba 在没有预训练权重的情况下将分类准确率提高到 79.54％。我们的发现指出，我们提出的方法在 CNFOOD-241 数据集上建立了 SOTA 性能的新基准。

Feb, 2024

理解用于图像分类的视觉状态空间模型的鲁棒性

通过多个角度对 Visual State Space Model (VMamba) 的鲁棒性进行全面研究，揭示了其在对抗性攻击、一般鲁棒性、梯度及反向传播过程、图像结构变化等方面的独特弱点和防御能力，为促进计算机视觉应用中深度神经网络的能力提供了宝贵的洞见。

Mar, 2024

VM-UNet: 医学图像分割的视觉蛇视 UNet

本研究提出了一种基于状态空间模型的医学图像分割模型 Vision Mamba UNet (VM-UNet)，通过引入 Visual State Space (VSS) 块以捕获广泛的上下文信息，并构建了一个不对称的编码器 - 解码器结构。实验结果表明，VM-UNet 在医学图像分割任务中具有竞争力。此外，该模型是首个基于纯 SSM 模型构建的医学图像分割模型，旨在为未来开发更高效、更有效的 SSM 分割系统奠定基础并提供有价值的见解。

Feb, 2024