Mar, 2024

高效 VMamba:轻量级 Mamba 的孔隙选择扫描

TL;DR基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上,但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发,探索了视觉状态空间模型在轻量级模型设计中的潜力,并提出了一种新的高效模型变体 EfficientVMamba,通过有效的跳跃采样集成一种基于空洞的选择性扫描方法,构成旨在利用全局和局部表征特征的构件。此外,我们还调查了 SSM 模块与卷积之间的整合,并引入了一种高效的视觉状态空间块,结合了额外的卷积分支,进一步提高了模型的性能。实验结果表明,EfficientVMamba 降低了计算复杂性,同时在各种视觉任务中取得了有竞争力的结果。例如,我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。