Sep, 2023

重新审视 LARS 用于大批量训练神经网络的泛化

TL;DR通过实验分析研究了大规模批量学习中两种优化器(LARS 和 LAMB)的行为以及热身技术在其中的必要性,并在此基础上提出了一种名为 Time Varying LARS (TVLARS) 的新算法,该算法在初始阶段实现了稳定训练,无需热身技术,实验证明 TVLARS 在使用热身技术时与 LARS 和 LAMB 取得了相当的结果,并且在无热身技术时超越了它们的性能。