Nov, 2021

搜索视觉Transformer的搜索空间

TL;DR本文介绍了使用神经架构搜索来自动化提高Vision Transformer架构和搜索空间的过程,以及设计指南和分析。通过使用E-T Error来逐步演化不同的搜索维度。此外,从所搜索的空间中得到的模型,名为S3,评估在ImageNet上表现比最近提出的模型(如Swin、DeiT和ViT)更出色,并在目标检测、语义分割和视觉问答等任务中展示了其普适性。