AAAIOct, 2019

自适应优化的未调节热身是否足够

TL;DR本研究分析 Adam 的自适应学习率,提出温升调整学习率的必要性取决于更新项的大小,进而提供一些温升规则,并表明未调整的 Adam 与 RAdam 在典型实际环境中表现基本相同,建议从业者在 Adam 中坚持使用线性温升。