May, 2021

动态 Transformer 用于高效图像识别:并非所有图像都相当于 16x16 个单词

TL;DR本文提出了一种名为 Dynamic Transformer 的方法,通过将多个变压器级联并在测试时以自适应方式逐个激活它们,自动配置每个输入图像的适当标记数。在 ImageNet,CIFAR-10 和 CIFAR-100 上的广泛实证结果表明,我们的方法在理论计算效率和实际推理速度方面显着优于竞争基线。