MHS-VM：多头并行子空间扫描用于视觉玛巴

Jun, 2024

MHS-VM：多头并行子空间扫描用于视觉玛巴

MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba

Zhongping Ji

TL;DR提出了一种基于 State Space Models 的 Multi-Head Scan (MHS) 模块，通过 1D selective scan 在 2D 图像空间内构建视觉特征，结合了 Scan Route Attention (SRA) 机制来提高模块的复杂结构辨识能力，并在实验证明了该方法在性能上的显著改善与参数减少。

Abstract

Recently, state space models (SSMs), with mamba as a prime example, have shown great promise for long-range dependency modeling with linear complexity. Then, Vision →

state space models mamba multi-head scan scan route attention 2d-selective-scan

发现论文，激发创造

多尺度 VMamba: 层次化视觉状态空间模型

通过分析多次扫描策略在多尺度视觉任务中的成功原因，本研究介绍了 Multi-Scale Vision Mamba（MSVMamba）模型，采用多尺度二维扫描技术并整合了卷积前馈网络（ConvFFN），在有限参数下保留了 State Space Models（SSMs）在视觉任务中的卓越性能。

May, 2024

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了 Vision Mamba (ViM) 模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

VM-UNET-V2 在医学图像分割中重新思考 Vision Mamba UNet

在医学图像分割领域，CNN 和 Transformer 基于模型已经进行了深入研究。然而，CNN 对长距离依赖的建模能力有限，使得充分利用图像内的语义信息变得具有挑战性。另一方面，Transformer 的二次计算复杂性提出了挑战。最近，基于状态空间模型（SSMs）的方法，如 Mamba，被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能，而且保持了线性计算复杂性。受到 Mamba 架构的启发，我们提出了 Vision Mamba-UNetV2，引入了 Visual State Space（VSS）块来捕捉广泛的上下文信息，引入 Semantics and Detail Infusion（SDI）来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明，VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得

Mar, 2024

H-vmunet: 高阶视觉 Mamba UNet 用于医学图像分割

该研究设计了一种基于状态空间模型的高阶视觉 Mamba UNet (H-vmunet) 用于医学图像分割，其中提出的高阶 2D 选择性扫描 (H-SS2D) 模块通过更高阶的交互逐渐减少冗余信息的引入，提高了 2D 选择性扫描操作的适应性，并且所提出的局部 SS2D 模块改进了每个交互阶段中局部特征的学习能力。通过对三个公开可用的医学图像数据集（ISIC2017、Spleen 和 CVC-ClinicDB）进行对比和消融实验，研究结果显示了 H-vmunet 在医学图像分割任务中的强大竞争力。

Mar, 2024

旋转扫描：医学图像分割的三元 SSM 模块与类 UNet Mamba

通过使用残差 VSS 模块进行深度上下文特征提取，以及使用 Triplet SSM 在空间和通道维度上融合特征，我们的 TM-UNet 在多个数据集上展示了卓越的分割性能，并且相较于之前的 VM-UNet 减少了三分之一的参数。

Mar, 2024

高效 VMamba：轻量级 Mamba 的孔隙选择扫描

基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上，但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发，探索了视觉状态空间模型在轻量级模型设计中的潜力，并提出了一种新的高效模型变体 EfficientVMamba，通过有效的跳跃采样集成一种基于空洞的选择性扫描方法，构成旨在利用全局和局部表征特征的构件。此外，我们还调查了 SSM 模块与卷积之间的整合，并引入了一种高效的视觉状态空间块，结合了额外的卷积分支，进一步提高了模型的性能。实验结果表明，EfficientVMamba 降低了计算复杂性，同时在各种视觉任务中取得了有竞争力的结果。例如，我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。

Mar, 2024

GroupMamba: 参数高效、准确的群组视觉状态空间模型

我们的研究论文主要关注于解决基于状态空间模型的计算机视觉模型在规模化和效率方面的挑战，提出了一种 Modulated Group Mamba 层以及基于蒸馏的训练目标，通过实验证明这些贡献能够带来优越的性能表现，尤其在 ImageNet-1K 图像分类、MS-COCO 目标检测、ADE20K 语义分割等任务上取得了最先进的性能。

Jul, 2024

VM-UNet: 医学图像分割的视觉蛇视 UNet

本研究提出了一种基于状态空间模型的医学图像分割模型 Vision Mamba UNet (VM-UNet)，通过引入 Visual State Space (VSS) 块以捕获广泛的上下文信息，并构建了一个不对称的编码器 - 解码器结构。实验结果表明，VM-UNet 在医学图像分割任务中具有竞争力。此外，该模型是首个基于纯 SSM 模型构建的医学图像分割模型，旨在为未来开发更高效、更有效的 SSM 分割系统奠定基础并提供有价值的见解。

Feb, 2024

PlainMamba：改进视觉识别中的非层次化非洲黑曼巴

PlainMamba 是一种简单的非层次化状态空间模型 (SSM)，用于通用视觉识别，通过选择性扫描过程将 Mamba 模型应用于视觉领域，提高其从二维图像中学习特征的能力，并通过在扫描序列中保证标记相邻性的连续 2D 扫描过程以及具有方向性的更新来区分标记的空间关系。我们的架构易于使用和扩展，通过堆叠相同的 PlainMamba 块形成宽度恒定的模型，同时去除了特殊标记的需求。我们在包括图像分类、语义分割、目标检测和实例分割在内的多种视觉识别任务上评估了 PlainMamba。与以前的非层次化模型相比，我们的方法取得了性能提升，并且与层次化模型相媲美。尤其对于需要高分辨率输入的任务，PlainMamba 在保持高性能的同时需要更少的计算资源。

Mar, 2024