VMamba:视觉状态空间模型
通过分析多次扫描策略在多尺度视觉任务中的成功原因,本研究介绍了 Multi-Scale Vision Mamba(MSVMamba)模型,采用多尺度二维扫描技术并整合了卷积前馈网络(ConvFFN),在有限参数下保留了 State Space Models(SSMs)在视觉任务中的卓越性能。
May, 2024
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了 Vision Mamba (ViM) 模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024
基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上,但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发,探索了视觉状态空间模型在轻量级模型设计中的潜力,并提出了一种新的高效模型变体 EfficientVMamba,通过有效的跳跃采样集成一种基于空洞的选择性扫描方法,构成旨在利用全局和局部表征特征的构件。此外,我们还调查了 SSM 模块与卷积之间的整合,并引入了一种高效的视觉状态空间块,结合了额外的卷积分支,进一步提高了模型的性能。实验结果表明,EfficientVMamba 降低了计算复杂性,同时在各种视觉任务中取得了有竞争力的结果。例如,我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。
Mar, 2024
我们提出了 VmambaIR,这是一种综合图像恢复任务的方法,它将线性复杂度的状态空间模型引入其中,通过有效地建模图像信息在各个方向上的流动来克服了状态空间模型的单向建模限制,并在图像去雨、单幅图像超分辨率和实际图像超分辨率等多个图像恢复任务上取得了最先进的性能。
Mar, 2024
本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。
Jan, 2024
使用频率和空间域进行扫描的 Vim-F 模型通过在原有特征图上添加频谱信息,能够建模统一的视觉表示,充分利用 ViM 的高效长序列建模能力,并利用卷积干扰获取更多本地关联性,进一步提高性能。
May, 2024
在医学图像分割领域,CNN 和 Transformer 基于模型已经进行了深入研究。然而,CNN 对长距离依赖的建模能力有限,使得充分利用图像内的语义信息变得具有挑战性。另一方面,Transformer 的二次计算复杂性提出了挑战。最近,基于状态空间模型(SSMs)的方法,如 Mamba,被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能,而且保持了线性计算复杂性。受到 Mamba 架构的启发,我们提出了 Vision Mamba-UNetV2,引入了 Visual State Space(VSS)块来捕捉广泛的上下文信息,引入 Semantics and Detail Infusion(SDI)来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明,VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得
Mar, 2024
该研究介绍了一个被学术界低估的食物数据集 CNFOOD-241,并在 VMamba 模型中引入了残差学习框架,同时利用原始 VMamba 架构中固有的全局和局部状态特征。研究结果显示 VMamba 在细粒度和食物分类上超过了当前的 SOTA 模型,并提出的 Res-VMamba 在没有预训练权重的情况下将分类准确率提高到 79.54%。我们的发现指出,我们提出的方法在 CNFOOD-241 数据集上建立了 SOTA 性能的新基准。
Feb, 2024
通过多个角度对 Visual State Space Model (VMamba) 的鲁棒性进行全面研究,揭示了其在对抗性攻击、一般鲁棒性、梯度及反向传播过程、图像结构变化等方面的独特弱点和防御能力,为促进计算机视觉应用中深度神经网络的能力提供了宝贵的洞见。
Mar, 2024
本研究提出了一种基于状态空间模型的医学图像分割模型 Vision Mamba UNet (VM-UNet),通过引入 Visual State Space (VSS) 块以捕获广泛的上下文信息,并构建了一个不对称的编码器 - 解码器结构。实验结果表明,VM-UNet 在医学图像分割任务中具有竞争力。此外,该模型是首个基于纯 SSM 模型构建的医学图像分割模型,旨在为未来开发更高效、更有效的 SSM 分割系统奠定基础并提供有价值的见解。
Feb, 2024