Mar, 2022

DeepNet: 将 Transformer 扩展至 1,000 层

TL;DR通过引入新的归一化函数(DeepNorm)来修改 Transformer 中的残差连接,并进行理论分析,提出了一种简单而有效的方法来稳定极深的 Transformers 模型。 该方法结合了 Post-LN 的优秀性能和 Pre-LN 的稳定训练,并成功将 Transformers 模型扩展到 1000 层。在多语言基准测试中,使用 DeepNorm 和 3.2B 参数的 200 层模型比使用 12B 参数的 48 层最先进模型高 5 BLEU 点。