多尺度 VMamba: 层次化视觉状态空间模型
基于卷积神经网络和视觉变换器,提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构,具有线性复杂度和全局感受野,并在图像分辨率增加时展现出更明显的优势。
Jan, 2024
基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上,但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发,探索了视觉状态空间模型在轻量级模型设计中的潜力,并提出了一种新的高效模型变体 EfficientVMamba,通过有效的跳跃采样集成一种基于空洞的选择性扫描方法,构成旨在利用全局和局部表征特征的构件。此外,我们还调查了 SSM 模块与卷积之间的整合,并引入了一种高效的视觉状态空间块,结合了额外的卷积分支,进一步提高了模型的性能。实验结果表明,EfficientVMamba 降低了计算复杂性,同时在各种视觉任务中取得了有竞争力的结果。例如,我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。
Mar, 2024
提出了一种基于 State Space Models 的 Multi-Head Scan (MHS) 模块,通过 1D selective scan 在 2D 图像空间内构建视觉特征,结合了 Scan Route Attention (SRA) 机制来提高模块的复杂结构辨识能力,并在实验证明了该方法在性能上的显著改善与参数减少。
Jun, 2024
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了 Vision Mamba (ViM) 模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024
本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。
Jan, 2024
在医学图像分割领域,CNN 和 Transformer 基于模型已经进行了深入研究。然而,CNN 对长距离依赖的建模能力有限,使得充分利用图像内的语义信息变得具有挑战性。另一方面,Transformer 的二次计算复杂性提出了挑战。最近,基于状态空间模型(SSMs)的方法,如 Mamba,被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能,而且保持了线性计算复杂性。受到 Mamba 架构的启发,我们提出了 Vision Mamba-UNetV2,引入了 Visual State Space(VSS)块来捕捉广泛的上下文信息,引入 Semantics and Detail Infusion(SDI)来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明,VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得
Mar, 2024
我们提出了 VmambaIR,这是一种综合图像恢复任务的方法,它将线性复杂度的状态空间模型引入其中,通过有效地建模图像信息在各个方向上的流动来克服了状态空间模型的单向建模限制,并在图像去雨、单幅图像超分辨率和实际图像超分辨率等多个图像恢复任务上取得了最先进的性能。
Mar, 2024
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
Apr, 2024
基于 SMM-CNN 混合结构的 Vision Mamba DDPM(VM-DDPM)用于医学图像合成,通过多级状态空间块(MSSBlock)、状态空间层(SSLayer)和交叉扫描模块(CSM)等方法,在三个不同规模的数据集上取得最先进的性能。
May, 2024