BriefGPT.xyz
Ask
alpha
关键词
early-phase training
搜索结果 - 1
ICLR
深度神经网络优化轨迹上的盈亏平衡点
本文探讨了随机梯度下降在神经网络早期训练阶段中的超参数,指出通过在初期采用大学习率可以减小梯度的方差和提高梯度的协方差矩阵的条件数,在超过 “盈亏平衡点” 之后,通过随机梯度下降法优化可以隐式地正则化损失曲面的曲率以及梯度中的噪声等问题,这
→
PDF
4 years ago
Prev
Next