May, 2023

探寻变形金刚为何 Adam 比 SGD 更快收敛

TL;DR这篇论文提出了一种新的方向锐度概念,阐述了优化算法与更新步长的方向锐度的关系,发现随机梯度下降在这方面表现远差于自适应算法,因此建议使用坐标剪裁该问题,并证明了该技术可用于提高深度学习优化的收敛速度。