神经网络方法的快速迭代求解器：II. 1D 扩散 - 反应问题与数据拟合

Jul, 2024

神经网络方法的快速迭代求解器：II. 1D 扩散 - 反应问题与数据拟合

Fast Iterative Solver For Neural Network Method: II. 1D Diffusion-Reaction Problems And Data Fitting

Zhiqiang Cai, Anastassia Doktorova, Robert D. Falgout, César Herrera

TL;DR该研究论文介绍了一种扩展的阻尼块牛顿法，用于解决神经网络中包含质量矩阵的线性方程组，以及求解非线性参数的方法，该方法在计算代价上具有较高效性，并且优于 BFGS 算法。

Abstract

This paper expands the damped block Newton (dBN) method introduced recently in [4] for 1D diffusion-reaction equations and least-squares data fitting problems. To determine the linear parameters (the weights and bias of the output layer) of the neural network (NN), the dBN method requi

damped block newton method neural network mass matrix linear equations computational cost

发现论文，激发创造

训练深度神经网络的实用拟牛顿方法

本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练，通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。

Jun, 2020

深度神经网络的 Mini-Block Fisher 方法

该论文提出了一种介于一阶方法和二阶方法之间的 “mini-block Fisher (MBF)” 预处理梯度方法，利用 GPU 的并行性实现了对每个层中大量矩阵的高效计算，且在时间效率和泛化能力方面都优于基线方法，并被证明其理想版本能够呈线性收敛。

Feb, 2022

深度学习的实用高斯牛顿优化

我们提出了一种高效的分块对角近似方法来计算前馈神经网络的高斯 - 牛顿矩阵，与一阶优化方法相比，有时能够显著提高优化性能。此外，我们的方法无需繁琐的调参，即可提供良好的性能。在针对分段线性转移函数进行优化时，网络目标函数可能不存在可微的局部极大值，这也可以部分解释为什么这样的转移函数有助于有效优化。

Jun, 2017

Gram-Gauss-Newton 方法：学习超参数神经网络用于回归问题

本文介绍了一种新的 Gram-Gauss-Newton (GGN) 算法用于训练使用方形损失函数的深度神经网络，并借鉴了神经切线核（NTK）的想法。与典型的二阶方法相比，GGN 在每次迭代中只有小的开销。本文还给出了理论结果，证明对于足够广的神经网络，GGN 的收敛速度是二次的。此外，我们还提供了 mini-batch GGN 算法的收敛保证，这是我们知道的第一个关于超参数神经网络 mini-batch 版本的二阶方法的收敛结果。初步的实验表明，对于训练常规网络，我们的 GGN 算法比 SGD 收敛速度更快，性能更好。

May, 2019

一种基于结构引导的浅层 ReLU 神经网络的高斯牛顿方法

本文提出了一种基于结构引导的 Gauss-Newton 方法，用于使用浅层 ReLU 神经网络求解最小二乘问题。该方法有效地利用了最小二乘结构和目标函数的神经网络结构，通过将网络的隐藏层和输出层的权重和偏置分别归类为非线性和线性参数，方法在非线性和线性参数之间来回迭代。该方法在最小二乘步骤中，为浅层 ReLU 神经网络推导出一种特殊形式的 Gauss-Newton 矩阵，用于高效迭代。实验证明，在合理的假设下，线性和非线性步骤中的对应的质量矩阵和 Gauss-Newton 矩阵均是对称且正定的。因此，SgGN 方法自然地产生了一个有效的搜索方向，无需像 Levenberg-Marquardt 方法中的移位技术一样实现 Gauss-Newton 矩阵的可逆性。该方法的收敛性和准确性在多个具有挑战性的函数逼近问题中进行了数值验证，特别是在机器学习中常用的训练算法在具有不连续性或尖锐过渡层的问题上面临重大挑战的情况下。

Apr, 2024

大规模阻尼自然梯度下降的高效数值算法

我们提出了一种新的算法，用于在参数数量明显超过可用样本数量的大规模场景中高效解决阻尼 Fisher 矩阵的问题，这对于自然梯度下降和随机重新构建来说非常重要。我们的算法基于 Cholesky 分解，具有广泛的适用性，并且基准结果表明该算法比现有方法快得多。

Oct, 2023

大规模分布式学习中的拟牛顿更新

开发了具有卓越统计分析、计算和通信效率的分布式拟牛顿（DQN）框架，无需 Hessian 矩阵倒置或通信，在小数次迭代下提供了统计效率的结果，强调与现有方法的差别在于对统计学性质的调查。

Jun, 2023

深度神经网络训练的精确 Gauss-Newton 优化

我们介绍了 EGN，一种随机二阶优化算法，将广义高斯 - 牛顿（GN）Hessian 近似与低秩线性代数相结合，计算下降方向。借助 Duncan-Guttman 矩阵恒等式，通过分解一个与小批次大小相同的矩阵来获得参数更新，这在维度远超批次大小的大规模机器学习问题中特别有优势。此外，我们展示了如何将线搜索、自适应正则化和动量等改进无缝地添加到 EGN 中以进一步加速算法。此外，在温和假设下，我们证明了我们的算法以线性速率收敛到一个 ε- 稳定点。最后，我们的数值实验表明，在各种监督学习和强化学习任务中，EGN 始终超过或最多与 SGD、Adam 和 SGN 等优化器的泛化性能相匹配。

May, 2024

一种基于反向微分的深度学习算法求解高维非线性反向随机微分方程

提出了一种基于反向差分深度学习的新型算法，用于解决高维非线性反向随机微分方程问题，并通过 Malliavin 微积分将问题重构为差分深度学习问题，并使用 Euler-Maruyama 方法对积分进行离散化，通过优化损失函数来对 DNN 参数进行反向优化，在理论和实验上证明了该算法的高效性。

Apr, 2024

卷积神经网络的牛顿法

本文研究深度学习中的优化问题，探讨了使用 Newton 方法优化卷积神经网络的复杂性，并给出了用于实现该方法的 MATLAB 代码示例，证明其在测试准确度上与传统 stochastic gradient 方法相当。

Nov, 2018