EA-CG：一种用于训练全连接神经网络的近似二阶方法

AAAIFeb, 2018

EA-CG：一种用于训练全连接神经网络的近似二阶方法

EA-CG: An Approximate Second-Order Method for Training Fully-Connected Neural Networks

Sheng-Wei Chen, Chun-Nan Chou, Edward Y. Chang

TL;DR该研究提出了一个实用的近似二阶方法来训练全连接神经网络，其中包括一个 Hessian matrix 的近似和一个共轭梯度（CG）算法，并且通过与一级近似结合的共轭梯度算法，大大减少了空间和时间复杂度。经验研究表明，该方法具有高效性和效果。

Abstract

For training fully-connected neural networks (FCNNs), we propose a practical approximate second-order method including: 1) an approximation of the Hessian matrix and 2) a →

fully-connected neural networks hessian matrix conjugate gradient approximation efficiency

发现论文，激发创造

使用复步方向导数的二阶神经网络训练

本文提出了一个基于二阶数值优化的深度学习算法。该算法使用复合数算法流的有限差分（CDSD）计算海森矩阵，通过监控泰勒级数的逼近误差，调整步长大小，实现了优化的同时保存良好的局部和全局收敛性，在深度学习任务中表现优异。

Sep, 2020

神经元上的梯度下降及其与近似二阶优化的联系

本文挑战了广泛持有的信念，发现由于其近似，Kronecker-Factored 是不与二阶更新密切相关的，并且在计算代价和数据效率方面往往优于此类更新算法，同时提出证据表明 KFAC 逼近第一阶算法（对神经元进行梯度下降），而非权重，为令人惊讶的结果。

Jan, 2022

深度神经网络训练的精确 Gauss-Newton 优化

我们介绍了 EGN，一种随机二阶优化算法，将广义高斯 - 牛顿（GN）Hessian 近似与低秩线性代数相结合，计算下降方向。借助 Duncan-Guttman 矩阵恒等式，通过分解一个与小批次大小相同的矩阵来获得参数更新，这在维度远超批次大小的大规模机器学习问题中特别有优势。此外，我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外，在温和假设下，我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后，我们的数值实验表明，在各种监督学习和强化学习任务中，EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。

May, 2024

Gram-Gauss-Newton 方法：学习超参数神经网络用于回归问题

本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络，并借鉴了神经切线核（NTK）的想法。与典型的二阶方法相比，GGN 在每次迭代中只有小的开销。本文还给出了理论结果，证明对于足够广的神经网络，GGN 的收敛速度是二次的。此外，我们还提供了 mini-batch GGN 算法的收敛保证，这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明，对于训练常规网络，我们的 GGN 算法比 SGD 收敛速度更快，性能更好。

May, 2019

使用部分海森矩阵的 SGD 优化深度神经网络

基于二阶算法和 Hessian 矩阵的优化器 SGD-PH 在深度神经网络训练中取得了良好的性能。

Mar, 2024

（过参数化）神经网络的近线性时间训练

该论文提出了一种基于随机线性代数的改进的二阶优化算法，重新解构了高斯牛顿迭代，使用快速 Johnson-Lindenstrauss 变换进行预处理，并使用一阶共轭梯度法得到足够好的近似解来训练 (moderately overparametrized) ReLU 网络，并且取得了快速训练的效果。

Jun, 2020

Eva: 二阶优化的通用向量化近似框架

我们提出了一种记忆和时间高效的二阶算法 Eva，通过使用小批量训练数据的 Kronecker 因式分解构建二阶信息以减少内存消耗，并使用 Sherman-Morrison 公式推导出高效的更新公式，将 Eva 扩展为通用的向量化近似框架以提高现有二阶算法（FOOF 和 Shampoo）的计算和内存效率。在不影响收敛性能的情况下，对不同模型和数据集进行的广泛实验结果表明，与一阶 SGD 和二阶算法（K-FAC 和 Shampoo）相比，Eva 可将端到端训练时间减少 2.05 倍和 2.42 倍。

Aug, 2023

使用近似梯度下降学习图神经网络

该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络（GNN）的可证明有效的学习算法，并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数，包括 ReLU，Leaky ReLU，Sigmoid，Softplus 和 Swish，并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。

Dec, 2020

神经网络可行的无鞍牛顿优化的 Hessian-Vector 乘积系列

提出了一个既能解决大规模的 Hessian 矩阵问题，又能优化非凸性的优化算法，采用了一个无限级数截断的方法，并在多种情境下进行了验证，包括在 CIFAR-10 上训练的 ResNet-18 模型。

Oct, 2023

通过高阶导数总结将牛顿法应用于神经网络

本研究论文介绍了一种基于梯度的优化方法，并提出了一个计算上廉价的技术，用于获得有关张量之间交互关系的二阶信息。使用这种技术，构建了适用于各种深度神经网络结构的二阶优化方法，避免了计算 Hessian 矩阵和其近似的复杂性，并改善了现有的对角线或块对角线近似方法。

Dec, 2023