BriefGPT.xyz
Sep, 2021
寻找高效的多阶段视觉Transformer模型
Searching for Efficient Multi-Stage Vision Transformers
HTML
PDF
Yi-Lun Liao, Sertac Karaman, Vivienne Sze
TL;DR
利用神经架构搜索(NAS)设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS,其中融合了两个技术:残差空间缩减和权重共享 NAS,实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度-MAC 和精度-吞吐量权衡。
Abstract
vision transformer
(ViT) demonstrates that Transformer for natural language processing can be applied to computer vision tasks and result in comparable performance to convolutional neural networks (
cnn
), which ha
→