Feb, 2024

Res-VMamba:使用具有深度残差学习的选择性状态空间模型进行细粒度食品类别视觉分类

TL;DR该研究介绍了一个被学术界低估的食物数据集 CNFOOD-241,并在 VMamba 模型中引入了残差学习框架,同时利用原始 VMamba 架构中固有的全局和局部状态特征。研究结果显示 VMamba 在细粒度和食物分类上超过了当前的 SOTA 模型,并提出的 Res-VMamba 在没有预训练权重的情况下将分类准确率提高到 79.54%。我们的发现指出,我们提出的方法在 CNFOOD-241 数据集上建立了 SOTA 性能的新基准。