Feb, 2022

无需训练的自适应视觉Transformer

TL;DR提出了一种名为As-ViT的自动缩放框架,用于设计和扩展Vision Transformers(ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需12小时的训练。