May, 2022

深度与宽度:Transformer 配置的重新审视

TL;DR本文通过理论分析和实验评估,重新设计了深度和宽度更浅的 transformer 配置,其中使用 masked 自动编码器训练模型,使模型在 ImageNet 上获得了 87.1%的 top-1 准确性,并在语言任务上优于默认配置的 BERT 达 1.1 个百分点。