EA-CG:一种用于训练全连接神经网络的近似二阶方法
本文提出了一个基于二阶数值优化的深度学习算法。该算法使用复合数算法流的有限差分(CDSD)计算海森矩阵,通过监控泰勒级数的逼近误差,调整步长大小,实现了优化的同时保存良好的局部和全局收敛性,在深度学习任务中表现优异。
Sep, 2020
本文挑战了广泛持有的信念,发现由于其近似,Kronecker-Factored 是不与二阶更新密切相关的,并且在计算代价和数据效率方面往往优于此类更新算法,同时提出证据表明 KFAC 逼近第一阶算法(对神经元进行梯度下降),而非权重,为令人惊讶的结果。
Jan, 2022
我们介绍了 EGN,一种随机二阶优化算法,将广义高斯 - 牛顿(GN)Hessian 近似与低秩线性代数相结合,计算下降方向。借助 Duncan-Guttman 矩阵恒等式,通过分解一个与小批次大小相同的矩阵来获得参数更新,这在维度远超批次大小的大规模机器学习问题中特别有优势。此外,我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外,在温和假设下,我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后,我们的数值实验表明,在各种监督学习和强化学习任务中,EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。
May, 2024
本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络,并借鉴了神经切线核(NTK)的想法。与典型的二阶方法相比,GGN 在每次迭代中只有小的开销。本文还给出了理论结果,证明对于足够广的神经网络,GGN 的收敛速度是二次的。此外,我们还提供了 mini-batch GGN 算法的收敛保证,这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明,对于训练常规网络,我们的 GGN 算法比 SGD 收敛速度更快,性能更好。
May, 2019
该论文提出了一种基于随机线性代数的改进的二阶优化算法,重新解构了高斯牛顿迭代,使用快速 Johnson-Lindenstrauss 变换进行预处理,并使用一阶共轭梯度法得到足够好的近似解来训练 (moderately overparametrized) ReLU 网络,并且取得了快速训练的效果。
Jun, 2020
我们提出了一种记忆和时间高效的二阶算法 Eva,通过使用小批量训练数据的 Kronecker 因式分解构建二阶信息以减少内存消耗,并使用 Sherman-Morrison 公式推导出高效的更新公式,将 Eva 扩展为通用的向量化近似框架以提高现有二阶算法(FOOF 和 Shampoo)的计算和内存效率。在不影响收敛性能的情况下,对不同模型和数据集进行的广泛实验结果表明,与一阶 SGD 和二阶算法(K-FAC 和 Shampoo)相比,Eva 可将端到端训练时间减少 2.05 倍和 2.42 倍。
Aug, 2023
该论文提供了第一个针对具有一个隐层节点信息卷积的图神经网络(GNN)的可证明有效的学习算法,并开发了一种综合性框架来设计和分析 GNN 训练算法的收敛性。提出的算法适用于各种激活函数,包括 ReLU,Leaky ReLU,Sigmoid,Softplus 和 Swish,并对样本复杂度进行了特征化。数值实验进一步验证了理论分析。
Dec, 2020
提出了一个既能解决大规模的 Hessian 矩阵问题,又能优化非凸性的优化算法,采用了一个无限级数截断的方法,并在多种情境下进行了验证,包括在 CIFAR-10 上训练的 ResNet-18 模型。
Oct, 2023
本研究论文介绍了一种基于梯度的优化方法,并提出了一个计算上廉价的技术,用于获得有关张量之间交互关系的二阶信息。使用这种技术,构建了适用于各种深度神经网络结构的二阶优化方法,避免了计算 Hessian 矩阵和其近似的复杂性,并改善了现有的对角线或块对角线近似方法。
Dec, 2023