Nov, 2023

通过自适应策略加速 Vision Transformer 的训练:导航扩展法则

TL;DR最近几年,深度学习领域的最新发展主要由大规模模型主导,这些模型在大量数据上进行了预训练。本文在视觉任务和 Vision Transformers 家族中,通过引导缩放规律,设计出了计算优化的自适应模型,并证明其胜过静态模型。