BriefGPT.xyz
Ask
alpha
关键词
directional sharpness
搜索结果 - 1
探寻变形金刚为何 Adam 比 SGD 更快收敛
这篇论文提出了一种新的方向锐度概念,阐述了优化算法与更新步长的方向锐度的关系,发现随机梯度下降在这方面表现远差于自适应算法,因此建议使用坐标剪裁该问题,并证明了该技术可用于提高深度学习优化的收敛速度。
PDF
a year ago
Prev
Next