May, 2024

Polyak 遇上无参数 Clipped 梯度下降

TL;DR本研究探讨了参数自由方法在修剪的梯度下降中的应用,提出了非精确 Polyak 步长方法,其收敛速度与拥有良好调整的超参数的修剪梯度下降方法在 L 平滑和(L0,L1)平滑假设下,收敛到最优解的速度渐近独立。在合成函数和 LSTM、Nano-GPT 和 T5 的实验中验证了我们的收敛结果和方法的有效性。