Jul, 2023

适应性记号长度的视觉变换器:将长图像变短

TL;DR通过 Resizable-ViT 模型和 Token-Length Assigner 方法,在保证准确性的前提下,为每个图像分配最小的适当的 token 长度,从而加快 ViT 模型的推理速度,从而显着降低计算成本。