Jul, 2024

自动梯度下降与广义牛顿法

TL;DR我们提出了广义牛顿法(GeN)—— 一种基于海森矩阵的方法,适用于任何优化器(如 SGD 和 Adam),并将牛顿 - 拉弗森法作为一个子案例。我们的方法自动动态地选择加速收敛的学习率,无需进行繁琐的学习率调度。在实践中,我们的方法易于实施,因为它只需要进行附加的前向传递,几乎不会带来计算开销(以训练时间和内存成本计),如果将开销分摊到许多迭代中。我们展示了在语言和视觉任务上的大量实验证明 GeN 优化器可以与现有技术的性能相匹配,而这些现有技术是通过仔细调整学习率调度器来实现的。代码将在 https://github.com/ShiyunXu/AutoGeN 发布。