神经网络方法的快速迭代求解器:II. 1D 扩散 - 反应问题与数据拟合
本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练,通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。
Jun, 2020
该论文提出了一种介于一阶方法和二阶方法之间的 “mini-block Fisher (MBF)” 预处理梯度方法,利用 GPU 的并行性实现了对每个层中大量矩阵的高效计算,且在时间效率和泛化能力方面都优于基线方法,并被证明其理想版本能够呈线性收敛。
Feb, 2022
我们提出了一种高效的分块对角近似方法来计算前馈神经网络的高斯 - 牛顿矩阵,与一阶优化方法相比,有时能够显著提高优化性能。此外,我们的方法无需繁琐的调参,即可提供良好的性能。在针对分段线性转移函数进行优化时,网络目标函数可能不存在可微的局部极大值,这也可以部分解释为什么这样的转移函数有助于有效优化。
Jun, 2017
本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络,并借鉴了神经切线核(NTK)的想法。与典型的二阶方法相比,GGN 在每次迭代中只有小的开销。本文还给出了理论结果,证明对于足够广的神经网络,GGN 的收敛速度是二次的。此外,我们还提供了 mini-batch GGN 算法的收敛保证,这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明,对于训练常规网络,我们的 GGN 算法比 SGD 收敛速度更快,性能更好。
May, 2019
本文提出了一种基于结构引导的 Gauss-Newton 方法,用于使用浅层 ReLU 神经网络求解最小二乘问题。该方法有效地利用了最小二乘结构和目标函数的神经网络结构,通过将网络的隐藏层和输出层的权重和偏置分别归类为非线性和线性参数,方法在非线性和线性参数之间来回迭代。该方法在最小二乘步骤中,为浅层 ReLU 神经网络推导出一种特殊形式的 Gauss-Newton 矩阵,用于高效迭代。实验证明,在合理的假设下,线性和非线性步骤中的对应的质量矩阵和 Gauss-Newton 矩阵均是对称且正定的。因此,SgGN 方法自然地产生了一个有效的搜索方向,无需像 Levenberg-Marquardt 方法中的移位技术一样实现 Gauss-Newton 矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值验证,特别是在机器学习中常用的训练算法在具有不连续性或尖锐过渡层的问题上面临重大挑战的情况下。
Apr, 2024
我们提出了一种新的算法,用于在参数数量明显超过可用样本数量的大规模场景中高效解决阻尼 Fisher 矩阵的问题,这对于自然梯度下降和随机重新构建来说非常重要。我们的算法基于 Cholesky 分解,具有广泛的适用性,并且基准结果表明该算法比现有方法快得多。
Oct, 2023
开发了具有卓越统计分析、计算和通信效率的分布式拟牛顿(DQN)框架,无需 Hessian 矩阵倒置或通信,在小数次迭代下提供了统计效率的结果,强调与现有方法的差别在于对统计学性质的调查。
Jun, 2023
我们介绍了 EGN,一种随机二阶优化算法,将广义高斯 - 牛顿(GN)Hessian 近似与低秩线性代数相结合,计算下降方向。借助 Duncan-Guttman 矩阵恒等式,通过分解一个与小批次大小相同的矩阵来获得参数更新,这在维度远超批次大小的大规模机器学习问题中特别有优势。此外,我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外,在温和假设下,我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后,我们的数值实验表明,在各种监督学习和强化学习任务中,EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。
May, 2024
提出了一种基于反向差分深度学习的新型算法,用于解决高维非线性反向随机微分方程问题,并通过 Malliavin 微积分将问题重构为差分深度学习问题,并使用 Euler-Maruyama 方法对积分进行离散化,通过优化损失函数来对 DNN 参数进行反向优化,在理论和实验上证明了该算法的高效性。
Apr, 2024
本文研究深度学习中的优化问题,探讨了使用 Newton 方法优化卷积神经网络的复杂性,并给出了用于实现该方法的 MATLAB 代码示例,证明其在测试准确度上与传统 stochastic gradient 方法相当。
Nov, 2018