LocalMamba:具有窗口选择性扫描的视觉状态空间模型
基于卷积神经网络和视觉变换器,提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构,具有线性复杂度和全局感受野,并在图像分辨率增加时展现出更明显的优势。
Jan, 2024
基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上,但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发,探索了视觉状态空间模型在轻量级模型设计中的潜力,并提出了一种新的高效模型变体 EfficientVMamba,通过有效的跳跃采样集成一种基于空洞的选择性扫描方法,构成旨在利用全局和局部表征特征的构件。此外,我们还调查了 SSM 模块与卷积之间的整合,并引入了一种高效的视觉状态空间块,结合了额外的卷积分支,进一步提高了模型的性能。实验结果表明,EfficientVMamba 降低了计算复杂性,同时在各种视觉任务中取得了有竞争力的结果。例如,我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。
Mar, 2024
通过分析多次扫描策略在多尺度视觉任务中的成功原因,本研究介绍了 Multi-Scale Vision Mamba(MSVMamba)模型,采用多尺度二维扫描技术并整合了卷积前馈网络(ConvFFN),在有限参数下保留了 State Space Models(SSMs)在视觉任务中的卓越性能。
May, 2024
在这篇综述性文章中,我们回顾了 Mamba 模型的起源和核心见解,并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织,为未来在这个快速发展的领域中提供了挑战和研究方向。
Apr, 2024
本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。
Jan, 2024
基于 Mamba 算法的本地增强视觉 Mamba(LEVM)块和状态共享技术的图像融合网络(LE-Mamba)在多光谱和高光谱图像融合数据集上取得了最先进的结果,证明了该方法的有效性。
Apr, 2024
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
Apr, 2024
深度学习方法在高分辨率遥感图像的语义分割中扮演重要角色,主要采用卷积神经网络(CNN)和视觉 Transformer(ViT)。然而,CNN 由于有限的感受野而受限,而 ViT 则面临二次复杂度的挑战。最近,Mamba 模型因具有线性复杂性和全局感受野而引发广泛关注。此类任务需要将图像序列化为与 Mamba 模型兼容的序列。许多研究工作探索了能够增强 Mamba 模型对图像理解的扫描策略,但是这些扫描策略的有效性仍不确定。我们通过对 LoveDA、ISPRS Potsdam 和 ISPRS Vaihingen 数据集进行广泛实验,全面地探究了主流扫描方向及其组合对遥感图像的语义分割的影响。结果表明,无论复杂性或所涉及的扫描方向数量如何,没有一种单一的扫描策略优于其他策略。对于高分辨率遥感图像的语义分割,一个简单的单一扫描方向已被证明足够。同时,我们推荐了未来研究的相关方向。
May, 2024
提出了一种基于 State Space Models 的 Multi-Head Scan (MHS) 模块,通过 1D selective scan 在 2D 图像空间内构建视觉特征,结合了 Scan Route Attention (SRA) 机制来提高模块的复杂结构辨识能力,并在实验证明了该方法在性能上的显著改善与参数减少。
Jun, 2024
使用频率和空间域进行扫描的 Vim-F 模型通过在原有特征图上添加频谱信息,能够建模统一的视觉表示,充分利用 ViM 的高效长序列建模能力,并利用卷积干扰获取更多本地关联性,进一步提高性能。
May, 2024