MHS-VM:多头并行子空间扫描用于视觉玛巴
通过分析多次扫描策略在多尺度视觉任务中的成功原因,本研究介绍了 Multi-Scale Vision Mamba(MSVMamba)模型,采用多尺度二维扫描技术并整合了卷积前馈网络(ConvFFN),在有限参数下保留了 State Space Models(SSMs)在视觉任务中的卓越性能。
May, 2024
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了 Vision Mamba (ViM) 模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
Apr, 2024
在医学图像分割领域,CNN 和 Transformer 基于模型已经进行了深入研究。然而,CNN 对长距离依赖的建模能力有限,使得充分利用图像内的语义信息变得具有挑战性。另一方面,Transformer 的二次计算复杂性提出了挑战。最近,基于状态空间模型(SSMs)的方法,如 Mamba,被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能,而且保持了线性计算复杂性。受到 Mamba 架构的启发,我们提出了 Vision Mamba-UNetV2,引入了 Visual State Space(VSS)块来捕捉广泛的上下文信息,引入 Semantics and Detail Infusion(SDI)来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明,VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得
Mar, 2024
该研究设计了一种基于状态空间模型的高阶视觉 Mamba UNet (H-vmunet) 用于医学图像分割,其中提出的高阶 2D 选择性扫描 (H-SS2D) 模块通过更高阶的交互逐渐减少冗余信息的引入,提高了 2D 选择性扫描操作的适应性,并且所提出的局部 SS2D 模块改进了每个交互阶段中局部特征的学习能力。通过对三个公开可用的医学图像数据集(ISIC2017、Spleen 和 CVC-ClinicDB)进行对比和消融实验,研究结果显示了 H-vmunet 在医学图像分割任务中的强大竞争力。
Mar, 2024
通过使用残差 VSS 模块进行深度上下文特征提取,以及使用 Triplet SSM 在空间和通道维度上融合特征,我们的 TM-UNet 在多个数据集上展示了卓越的分割性能,并且相较于之前的 VM-UNet 减少了三分之一的参数。
Mar, 2024
基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上,但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发,探索了视觉状态空间模型在轻量级模型设计中的潜力,并提出了一种新的高效模型变体 EfficientVMamba,通过有效的跳跃采样集成一种基于空洞的选择性扫描方法,构成旨在利用全局和局部表征特征的构件。此外,我们还调查了 SSM 模块与卷积之间的整合,并引入了一种高效的视觉状态空间块,结合了额外的卷积分支,进一步提高了模型的性能。实验结果表明,EfficientVMamba 降低了计算复杂性,同时在各种视觉任务中取得了有竞争力的结果。例如,我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。
Mar, 2024
本研究提出了一种基于状态空间模型的医学图像分割模型 Vision Mamba UNet (VM-UNet),通过引入 Visual State Space (VSS) 块以捕获广泛的上下文信息,并构建了一个不对称的编码器 - 解码器结构。实验结果表明,VM-UNet 在医学图像分割任务中具有竞争力。此外,该模型是首个基于纯 SSM 模型构建的医学图像分割模型,旨在为未来开发更高效、更有效的 SSM 分割系统奠定基础并提供有价值的见解。
Feb, 2024
PlainMamba 是一种简单的非层次化状态空间模型 (SSM),用于通用视觉识别,通过选择性扫描过程将 Mamba 模型应用于视觉领域,提高其从二维图像中学习特征的能力,并通过在扫描序列中保证标记相邻性的连续 2D 扫描过程以及具有方向性的更新来区分标记的空间关系。我们的架构易于使用和扩展,通过堆叠相同的 PlainMamba 块形成宽度恒定的模型,同时去除了特殊标记的需求。我们在包括图像分类、语义分割、目标检测和实例分割在内的多种视觉识别任务上评估了 PlainMamba。与以前的非层次化模型相比,我们的方法取得了性能提升,并且与层次化模型相媲美。尤其对于需要高分辨率输入的任务,PlainMamba 在保持高性能的同时需要更少的计算资源。
Mar, 2024
利用创新的 Mamba-in-Mamba (MiM) 架构和利用 State Space Model (SSM) 的首次尝试,本研究提出了用于高光谱图像分类的 MiM 模型,通过改进的特征生成和集中方法以及改进的解码效率,优于现有基线和最先进方法,展示了其在高光谱应用中的效力和潜力。
May, 2024