BriefGPT.xyz
Ask
alpha
关键词
learning rate warm-up
搜索结果 - 2
何时、为何以及何倍?通过优化改进的自适应学习率调度
学习率调度与优化算法的收敛性分析、学习率预热和调度优化方法的研究。
PDF
9 months ago
Transformer 架构中的层标准化
本文证明了学习率预热阶段对于 Post-LN Transformer 是必要的,并提出了一种新的 Pre-LN Transformer 结构,该结构无需预热阶段,同时具有与基线相当的性能,大大减少了训练时间和超参数调整。
PDF
4 years ago
Prev
Next