ICCVAug, 2021

具有渐进采样的视觉 Transformer

TL;DR本研究提出一种迭代和渐进式采样策略,以定位具有区分性的区域,并与 Vision Transformer 结合起来,形成 PS-ViT 网络。该网络可自适应地学习何时观察图像的哪些区域,从而在 ImageNet 数据集上表现出比原始 ViT 网络高 3.8%的 top-1 准确性(使用约 4 倍的参数和 10 倍的运算次数)。