BriefGPT.xyz
Ask
alpha
关键词
sharpness dynamics
搜索结果 - 1
为何学习率能够传递?调和深度学习的优化与扩展限制
最近的研究表明,神经网络的宽度和深度对于所谓的丰富特征学习极限(μP 及其深层延伸)的缩放存在转移学习现象,从而降低了超参数调整的成本。本研究通过实证找到了学习率转移的实验证据,并得出结论,在 μP 及其深层延伸下,训练损失 Hessian
→
PDF
4 months ago
Prev
Next