BriefGPT.xyz
Ask
alpha
关键词
learning rate warmup
搜索结果 - 3
ICML
梯度正则化何时会有害?
本文揭示了梯度正则化(GR)在自适应优化场景中可能导致性能下降的问题,并提出了三种 GR 热身策略来解决这些问题,实验证实这三种策略能够大幅提高模型性能。
PDF
a month ago
动量梯度下降中的大型弹射器研究
通过实证研究,我们发现使用较大学习速率和学习速率预热的动量梯度下降会产生大的弹射效应,将迭代点推向更平坦的最小值,我们提供了实证证据和理论解释表明这种弹射效应是由于动量 “放大” 了自稳定效应。
PDF
8 months ago
ICLR
自适应学习率的方差及更多
文中探讨学习率预热方法在稳定训练、加速收敛和改善通用性方面的可靠性,发现自适应学习率在初始阶段有问题,建议使用预热作为方差缩减技术,并提出了一种新变量 RAdam 用于改善自适应学习率方差,实验结果表明其有效性和鲁棒性。
PDF
5 years ago
Prev
Next