BriefGPT.xyz
May, 2024
Polyak 遇上无参数 Clipped 梯度下降
Polyak Meets Parameter-free Clipped Gradient Descent
HTML
PDF
Yuki Takezawa, Han Bao, Ryoma Sato, Kenta Niwa, Makoto Yamada
TL;DR
本研究探讨了参数自由方法在修剪的梯度下降中的应用,提出了非精确Polyak步长方法,其收敛速度与拥有良好调整的超参数的修剪梯度下降方法在L平滑和(L0,L1)平滑假设下,收敛到最优解的速度渐近独立。在合成函数和LSTM、Nano-GPT和T5的实验中验证了我们的收敛结果和方法的有效性。
Abstract
gradient descent
and its variants are de facto standard algorithms for training machine learning models. As
gradient descent
is sensitive to its
→