May, 2024
超越固定训练持续时间的尺度定律和计算优化训练
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations
Alexander Hägele, Elie Bakouch, Atli Kosson, Loubna Ben Allal, Leandro Von Werra...
TL;DR通过研究模型的规模和训练行为,本研究提出了常数学习率和冷却方法作为替代余弦调度的更简单且可预测可靠的训练方法,并发现随机权重平均可以在不增加额外训练成本的情况下改善训练过程中的性能,从而减少计算和 GPU 时间,实现规模实验的效率提升。