Mar, 2024

PlainMamba:改进视觉识别中的非层次化非洲黑曼巴

TL;DRPlainMamba 是一种简单的非层次化状态空间模型 (SSM),用于通用视觉识别,通过选择性扫描过程将 Mamba 模型应用于视觉领域,提高其从二维图像中学习特征的能力,并通过在扫描序列中保证标记相邻性的连续 2D 扫描过程以及具有方向性的更新来区分标记的空间关系。我们的架构易于使用和扩展,通过堆叠相同的 PlainMamba 块形成宽度恒定的模型,同时去除了特殊标记的需求。我们在包括图像分类、语义分割、目标检测和实例分割在内的多种视觉识别任务上评估了 PlainMamba。与以前的非层次化模型相比,我们的方法取得了性能提升,并且与层次化模型相媲美。尤其对于需要高分辨率输入的任务,PlainMamba 在保持高性能的同时需要更少的计算资源。