BriefGPT.xyz
Ask
alpha
关键词
warmup schedules
搜索结果 - 1
AAAI
自适应优化的未调节热身是否足够
本研究分析 Adam 的自适应学习率,提出温升调整学习率的必要性取决于更新项的大小,进而提供一些温升规则,并表明未调整的 Adam 与 RAdam 在典型实际环境中表现基本相同,建议从业者在 Adam 中坚持使用线性温升。
PDF
5 years ago
Prev
Next