May, 2021
动态Transformer用于高效图像识别:并非所有图像都相当于16x16个单词
Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with
Adaptive Sequence Length
TL;DR本文提出了一种名为Dynamic Transformer的方法,通过将多个变压器级联并在测试时以自适应方式逐个激活它们,自动配置每个输入图像的适当标记数。在ImageNet,CIFAR-10和CIFAR-100上的广泛实证结果表明,我们的方法在理论计算效率和实际推理速度方面显着优于竞争基线。