Jan, 2024
视觉曼巴:具有双向状态空间模型的高效视觉表示学习
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu...
TL;DR本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。