Sep, 2021
寻找高效的多阶段视觉 Transformer 模型
Searching for Efficient Multi-Stage Vision Transformers
Yi-Lun Liao, Sertac Karaman, Vivienne Sze
TL;DR利用神经架构搜索(NAS)设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS,其中融合了两个技术:残差空间缩减和权重共享 NAS,实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。