BriefGPT.xyz
Ask
alpha
关键词
clipped gradient descent
搜索结果 - 1
Polyak 遇上无参数 Clipped 梯度下降
本研究探讨了参数自由方法在修剪的梯度下降中的应用,提出了非精确 Polyak 步长方法,其收敛速度与拥有良好调整的超参数的修剪梯度下降方法在 L 平滑和(L0,L1)平滑假设下,收敛到最优解的速度渐近独立。在合成函数和 LSTM、Nano-
→
PDF
a month ago
Prev
Next