视觉曼巴：具有双向状态空间模型的高效视觉表示学习

Jan, 2024

视觉曼巴：具有双向状态空间模型的高效视觉表示学习

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu...

TL;DR本文提出了一种新的通用计算机视觉基础模型 Vim，该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示，并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能，同时具有显著提高的计算和内存效率。

Abstract

Recently the state space models (SSMs) with efficient hardware-aware designs, i.e., Mamba, have shown great potential for long sequence modeling. Building efficient and generic vision backbones purely upon SSMs i

state space models vision backbones visual representation learning vim computation and memory efficiency

发现论文，激发创造

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

Vim-F：从频域学习的受益视觉状态空间模型

使用频率和空间域进行扫描的 Vim-F 模型通过在原有特征图上添加频谱信息，能够建模统一的视觉表示，充分利用 ViM 的高效长序列建模能力，并利用卷积干扰获取更多本地关联性，进一步提高性能。

May, 2024

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了 Vision Mamba (ViM) 模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

多尺度 VMamba: 层次化视觉状态空间模型

通过分析多次扫描策略在多尺度视觉任务中的成功原因，本研究介绍了 Multi-Scale Vision Mamba（MSVMamba）模型，采用多尺度二维扫描技术并整合了卷积前馈网络（ConvFFN），在有限参数下保留了 State Space Models（SSMs）在视觉任务中的卓越性能。

May, 2024

高效 VMamba：轻量级 Mamba 的孔隙选择扫描

基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上，但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发，探索了视觉状态空间模型在轻量级模型设计中的潜力，并提出了一种新的高效模型变体 EfficientVMamba，通过有效的跳跃采样集成一种基于空洞的选择性扫描方法，构成旨在利用全局和局部表征特征的构件。此外，我们还调查了 SSM 模块与卷积之间的整合，并引入了一种高效的视觉状态空间块，结合了额外的卷积分支，进一步提高了模型的性能。实验结果表明，EfficientVMamba 降低了计算复杂性，同时在各种视觉任务中取得了有竞争力的结果。例如，我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。

Mar, 2024

Vivim: 一种用于医学视频对象分割的视频视觉蛇

这篇研究论文介绍了一种基于视频视觉 Mamba 框架的医学视频目标分割任务方法 Vivim，通过设计的时间 Mamba 块，有效地将长期时空表示压缩为不同尺度的序列，相比现有的基于 Transformer 的方法，我们的模型在保持出色的分割结果的同时具有更好的速度表现。

Jan, 2024

VM-UNET-V2 在医学图像分割中重新思考 Vision Mamba UNet

在医学图像分割领域，CNN 和 Transformer 基于模型已经进行了深入研究。然而，CNN 对长距离依赖的建模能力有限，使得充分利用图像内的语义信息变得具有挑战性。另一方面，Transformer 的二次计算复杂性提出了挑战。最近，基于状态空间模型（SSMs）的方法，如 Mamba，被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能，而且保持了线性计算复杂性。受到 Mamba 架构的启发，我们提出了 Vision Mamba-UNetV2，引入了 Visual State Space（VSS）块来捕捉广泛的上下文信息，引入 Semantics and Detail Infusion（SDI）来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明，VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得

Mar, 2024

VmambaIR：图像修复的视觉状态空间模型

我们提出了 VmambaIR，这是一种综合图像恢复任务的方法，它将线性复杂度的状态空间模型引入其中，通过有效地建模图像信息在各个方向上的流动来克服了状态空间模型的单向建模限制，并在图像去雨、单幅图像超分辨率和实际图像超分辨率等多个图像恢复任务上取得了最先进的性能。

Mar, 2024

MambaVC：利用选择性状态空间进行学习的视觉压缩

通过引入基于状态空间模型的 MambaVC，我们在视觉压缩任务中取得了出色的速率失真性能，同时降低了计算和内存开销。

May, 2024

VMamba：视觉状态空间模型

基于卷积神经网络和视觉变换器，提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构，具有线性复杂度和全局感受野，并在图像分辨率增加时展现出更明显的优势。

Jan, 2024