BriefGPT.xyz
Ask
alpha
关键词
post-ln transformer
搜索结果 - 1
Transformer 架构中的层标准化
本文证明了学习率预热阶段对于 Post-LN Transformer 是必要的,并提出了一种新的 Pre-LN Transformer 结构,该结构无需预热阶段,同时具有与基线相当的性能,大大减少了训练时间和超参数调整。
PDF
4 years ago
Prev
Next