ICLRFeb, 2022

无需训练的自适应视觉 Transformer

TL;DR提出了一种名为 As-ViT 的自动缩放框架,用于设计和扩展 Vision Transformers (ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需 12 小时的训练。