Eva: 二阶优化的通用向量化近似框架

ICLRAug, 2023

Eva: 二阶优化的通用向量化近似框架

Eva: A General Vectorized Approximation Framework for Second-order Optimization

Lin Zhang, Shaohuai Shi, Bo Li

TL;DR我们提出了一种记忆和时间高效的二阶算法 Eva，通过使用小批量训练数据的 Kronecker 因式分解构建二阶信息以减少内存消耗，并使用 Sherman-Morrison 公式推导出高效的更新公式，将 Eva 扩展为通用的向量化近似框架以提高现有二阶算法（FOOF 和 Shampoo）的计算和内存效率。在不影响收敛性能的情况下，对不同模型和数据集进行的广泛实验结果表明，与一阶 SGD 和二阶算法（K-FAC 和 Shampoo）相比，Eva 可将端到端训练时间减少 2.05 倍和 2.42 倍。

Abstract

second-order optimization algorithms exhibit excellent convergence properties for training deep learning models, but often incur significant computation and memory overheads. This can result in lower training efficiency than the first-order counterparts such as stochastic gradient desc

second-order optimization algorithms memory and time efficiency kronecker factorization sherman-morrison formula convergence performance

发现论文，激发创造

Jorge：高效 GPU 二阶最优化的近似预处理

本文介绍了 Jorge，一种第二阶优化器，它通过省略矩阵求逆的计算，结合了第二阶方法的快速收敛性和第一阶方法的高计算效率。还提出了一种从 SGD 基准直接确定 Jorge 超参数的方法，从而显著减少调参工作。实证评估结果表明，在多个深度学习模型中，Jorge 优于 SGD、AdamW 和 Shampoo 等最先进的优化器，无论是在样本效率还是墙钟时间上。

Oct, 2023

深度学习可扩展的二阶优化

本文尝试缩小理论优化与实际优化之间的差距，提出了一种可扩展的二阶预处理方法来优化深度模型，利用异构硬件架构进行训练，相比于常规一阶方法在机器翻译、语言建模、点击率预测和图像分类等任务中表现出优异的性能。

Feb, 2020

EA-CG：一种用于训练全连接神经网络的近似二阶方法

该研究提出了一个实用的近似二阶方法来训练全连接神经网络，其中包括一个 Hessian matrix 的近似和一个共轭梯度（CG）算法，并且通过与一级近似结合的共轭梯度算法，大大减少了空间和时间复杂度。经验研究表明，该方法具有高效性和效果。

Feb, 2018

一个可靠的分布式二阶算法

本文提出了一种新的分布式广义线性模型训练算法，只需计算各工作器上的 Hessian 矩阵的对角块，然后提出了一种自适应方法以应对近似信息并展示了其在多个基准数据集上表现出的最新结果并显著优于现有算法。

Jun, 2018

神经元上的梯度下降及其与近似二阶优化的联系

本文挑战了广泛持有的信念，发现由于其近似，Kronecker-Factored 是不与二阶更新密切相关的，并且在计算代价和数据效率方面往往优于此类更新算法，同时提出证据表明 KFAC 逼近第一阶算法（对神经元进行梯度下降），而非权重，为令人惊讶的结果。

Jan, 2022

在克罗内克分解的特征基上进行快速近似自然梯度下降

本研究提出了一种基于 Kronecker 分解的特殊的对角方差近似算法，可以提高多层神经网络的优化速度。

Jun, 2018

Sophia: 用于语言模型预训练的可扩展随机二阶优化器

本文提出了一种简单的可扩展的二阶优化器 Sophia，通过使用对角 Hessian 的轻量级估计作为预处理器，以梯度的移动平均值除以估计的 Hessian 的移动平均数为更新，元素级别裁剪控制最坏情况下的更新大小并驯服 Hessian 的非凸性和快速变化，优化语言模型训练时间和成本。

May, 2023

Eve: 一种基于梯度的优化方法，具有局部和全局自适应学习率

本文提出了一种名为 Eve 的算法，它是一种改进的 Adam 算法，可以对每个参数单独进行自适应梯度和全局梯度的学习率调整，实验证明 Eve 在深度学习模型的训练中表现优秀。

Nov, 2016

线性时间内的机器学习二阶随机优化

本文提出了一种可以匹配第一阶段方法迭代成本的机器学习优化问题的二阶随机方法，具有线性时间实现的稀疏输入数据。

Feb, 2016

小批量处理对二阶优化器的泛化性能有所改善

深度神经网络的训练对计算资源消耗较大，为了提高性能，机器学习科学家通常使用随机一阶及二阶优化方法，通过经验研究发现，训练中的批大小对方法的最大准确率有显著影响，并且二阶优化方法在特定批大小下表现出更低的方差，可能需要更少的超参数调整，从而减少了模型训练的总体时间。

May, 2023