Jan, 2024

视觉曼巴:具有双向状态空间模型的高效视觉表示学习

TL;DR本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。