Apr, 2023

SparseFormer: 有限潜在令牌的稀疏视觉识别

TL;DR本文提出了一种命名为 SparseFormer 的新方法,以在端到端的方式中模仿人的稀疏视觉识别,其中 SparseFormer 使用稀疏特征抽样过程,在潜在空间中使用极少量的标记(降至 49),而不是在原始像素空间中处理密集单元,从而具有更低的计算成本。SparseFormer 在 ImageNet 分类基准数据集上的实验表明,它具有与规范或已建立模型相当的性能,同时提供更好的准确度 - 吞吐量权衡,并且设计我们的网络可以以更低的计算成本轻松扩展到视频分类。