ECCVNov, 2021

高效视觉 Transformer 的自适应标记采样

TL;DR本文介绍了一种不需要参数调整的自适应 Token 采样器模块,该模块可以插入任何现有的视觉转换模型中,通过对重要的 Token 进行评分和自适应抽样,使得 Token 数量不再是固定的,而是根据每个输入图像的不同而变化,从而将视觉转换模型转换为更加高效的模型,通过在多个 SOTA 视觉转换器中添加我们提出的模块,我们的方法减少了 GFLOPs 并提高了 ImageNet,Kinetics-400 和 Kinetics-600 数据集的准确性。