May, 2021
动态 Transformer 用于高效图像识别:并非所有图像都相当于 16x16 个单词
Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image Recognition
Yulin Wang, Rui Huang, Shiji Song, Zeyi Huang, Gao Huang
TL;DR本文提出了一种名为 Dynamic Transformer 的方法,通过将多个变压器级联并在测试时以自适应方式逐个激活它们,自动配置每个输入图像的适当标记数。在 ImageNet,CIFAR-10 和 CIFAR-100 上的广泛实证结果表明,我们的方法在理论计算效率和实际推理速度方面显着优于竞争基线。