Res-VMamba：使用具有深度残差学习的选择性状态空间模型进行细粒度食品类别视觉分类

Feb, 2024

Res-VMamba：使用具有深度残差学习的选择性状态空间模型进行细粒度食品类别视觉分类

Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning

PDF

Chi-Sheng Chen, Guan-Ying Chen, Dong Zhou, Di Jiang, Dai-Shi Chen

TL;DR该研究介绍了一个被学术界低估的食物数据集 CNFOOD-241，并在 VMamba 模型中引入了残差学习框架，同时利用原始 VMamba 架构中固有的全局和局部状态特征。研究结果显示 VMamba 在细粒度和食物分类上超过了当前的 SOTA 模型，并提出的 Res-VMamba 在没有预训练权重的情况下将分类准确率提高到 79.54％。我们的发现指出，我们提出的方法在 CNFOOD-241 数据集上建立了 SOTA 性能的新基准。

Abstract

food classification is the foundation for developing food vision tasks and plays a key role in the burgeoning field of computational nutrition. Due to the complexity of food requiring fine-grained classification, recent academic research mainly modifies →

food classification convolutional neural networks vision transformers sequence state space model cnfood-241 dataset

发现论文，激发创造

高效 VMamba：轻量级 Mamba 的孔隙选择扫描

基于轻量级模型开发的先前努力主要集中在 CNN 和 Transformer 基础设计上，但仍面临持久挑战。本研究受到 Mamba 等状态空间模型在语言建模和计算机视觉等多个任务中卓越表现和竞争力的启发，探索了视觉状态空间模型在轻量级模型设计中的潜力，并提出了一种新的高效模型变体 EfficientVMamba，通过有效的跳跃采样集成一种基于空洞的选择性扫描方法，构成旨在利用全局和局部表征特征的构件。此外，我们还调查了 SSM 模块与卷积之间的整合，并引入了一种高效的视觉状态空间块，结合了额外的卷积分支，进一步提高了模型的性能。实验结果表明，EfficientVMamba 降低了计算复杂性，同时在各种视觉任务中取得了有竞争力的结果。例如，我们的 EfficientVMamba-S 在 ImageNet 上对比 1.3G FLOPs 的 Vim-Ti 取得了大幅 5.6% 的准确率提升。代码可在以下链接找到: https://github.com/TerryPei/EfficientVMamba。

Mar, 2024

VMamba：视觉状态空间模型

基于卷积神经网络和视觉变换器，提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构，具有线性复杂度和全局感受野，并在图像分辨率增加时展现出更明显的优势。

Jan, 2024

多尺度 VMamba: 层次化视觉状态空间模型

通过分析多次扫描策略在多尺度视觉任务中的成功原因，本研究介绍了 Multi-Scale Vision Mamba（MSVMamba）模型，采用多尺度二维扫描技术并整合了卷积前馈网络（ConvFFN），在有限参数下保留了 State Space Models（SSMs）在视觉任务中的卓越性能。

May, 2024

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了 Vision Mamba (ViM) 模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

Samba: 遥感图像的语义分割与状态空间模型

该研究提出了一种针对高分辨率遥感图像的语义分割框架，名为 Samba，其采用编码器 - 解码器架构，使用 Samba 块作为编码器来高效地提取多层语义信息，以及 UperNet 作为解码器。在 LoveDA 数据集上的评估结果表明，Samba 在 LoveDA 上取得了前所未有的性能，为 Mamba 技术在这一特定应用中的性能设定了新的基准。

Apr, 2024

VmambaIR：图像修复的视觉状态空间模型

我们提出了 VmambaIR，这是一种综合图像恢复任务的方法，它将线性复杂度的状态空间模型引入其中，通过有效地建模图像信息在各个方向上的流动来克服了状态空间模型的单向建模限制，并在图像去雨、单幅图像超分辨率和实际图像超分辨率等多个图像恢复任务上取得了最先进的性能。

Mar, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

MedMamba：针对医学图像分类的视觉蛇

Medical image classification using Vision Mamba, a novel Conv-SSM module that combines convolutional layers with state space model, demonstrates promising results in detecting lesions, establishing a new baseline for the field.

Mar, 2024

nnMamba：使用状态空间模型进行 3D 生物医学图像分割、分类和地标检测

通过将 State Space Sequence Models (SSMs) 整合到卷积残差块中，nnMamba 架构能够提取局部特征并建模复杂的依赖关系，从而在医学图像分析的一系列挑战性任务中展现出卓越的性能。

Feb, 2024

RSMamba：基于状态空间模型的遥感图像分类

RSMamba 是基于状态空间模型（SSM）和 Mamba 的高效、硬件感知设计的一种远程感知图像分类的新型架构，它通过动态多路径激活机制增强了模型对非因果数据的建模能力，并在多个远程感知图像分类数据集上展现出卓越的性能，具有成为未来视觉基础模型骨干的潜力。

Mar, 2024