May, 2023

Sophia: 用于语言模型预训练的可扩展随机二阶优化器

TL;DR本文提出了一种简单的可扩展的二阶优化器 Sophia,通过使用对角 Hessian 的轻量级估计作为预处理器,以梯度的移动平均值除以估计的 Hessian 的移动平均数为更新,元素级别裁剪控制最坏情况下的更新大小并驯服 Hessian 的非凸性和快速变化,优化语言模型训练时间和成本。