Feb, 2020

Transformer 架构中的层标准化

TL;DR本文证明了学习率预热阶段对于 Post-LN Transformer 是必要的,并提出了一种新的 Pre-LN Transformer 结构,该结构无需预热阶段,同时具有与基线相当的性能,大大减少了训练时间和超参数调整。