Dec, 2023

从视觉基础模型起步的稀疏 Transformer

TL;DR用于视觉理解的 SparseFormer 通过调整 RoIs 利用较少的视觉标记提供了一种替代方案,从而大大减少了计算成本并同时实现了有希望的性能。我们提出了一种简单高效的方法,通过从基于 ViT 的视觉基础模型中启动 SparseFormer,仅需训练 SparseFormer 特定的轻量级聚焦变换器,从而可以以较小数量的训练样本且不需要标签或标题,在几小时内构建具有不同大规模预训练模型的 SparseFormer 架构。这种方法可以在 IN-1K 上使用仅 49 个标记达到 84.9%的准确率,并且基于 CLIP 的多模态 SparseFormer 还能在具有大大降低的计算成本的情况下展示出显著的零样本性能,而尚未在启动过程中查看任何标题。此外,基于 CLIP 启动的 SparseFormers 可以将输出空间与语言对齐,成为多模态大型语言模型中高效的视觉编码器。