神经元上的梯度下降及其与近似二阶优化的联系

ICMLJan, 2022

神经元上的梯度下降及其与近似二阶优化的联系

Gradient Descent on Neurons and its Link to Approximate Second-Order Optimization

Frederik Benzing

TL;DR本文挑战了广泛持有的信念，发现由于其近似，Kronecker-Factored 是不与二阶更新密切相关的，并且在计算代价和数据效率方面往往优于此类更新算法，同时提出证据表明 KFAC 逼近第一阶算法（对神经元进行梯度下降），而非权重，为令人惊讶的结果。

Abstract

second-order optimizers are thought to hold the potential to speed up neural network training, but due to the enormous size of the curvature matrix, they typically require approximations to be computationally tractable. The most successful family of approximations are →

second-order optimizers neural network training kronecker-factored gradient descent computational cost

发现论文，激发创造

用 Kronecker 分解的近似曲率优化神经网络

提出一种名为 K-FAC 的方法来近似神经网络中的自然梯度下降，该方法基于一种高效的逆近似方法来近似神经网络的 Fisher 信息矩阵，它既不是对角线矩阵也不是低秩矩阵，与先前提出的近似自然梯度 / 牛顿方法相比，K-FAC 在高度随机的优化方案中的表现非常好。

Mar, 2015

自然梯度的痕迹限制克罗内克 - 分解近似

本文提出了一种新的用于训练深度神经网络的二阶优化方法，叫做 TKFAC（Trace-restricted Kronecker-factored Approximate Curvature），其包括对 Fisher 信息矩阵的逼近和新的阻尼技术，在实验中表现优异。

Nov, 2020

物理知识神经网络的克罗内克因式化近似曲率

提出了 Krondocker 因式近似曲率法（KFAC）来降低计算成本，使得 PINN 模型能够扩展到更大的网络规模。此方法在小规模问题上与昂贵的二阶方法竞争，对于更高维度的神经网络和 PDEs 有更好的扩展能力，并持续优于一阶方法和 LBFGS。

May, 2024

卷积层 Kronecker 分解近似 Fisher 矩阵

本文提出了基于结构化概率模型的 KFC 来近似求解卷积网络的 Fisher 矩阵，采用 Kronecker deomposition 来使得每个块都是小矩阵，从而实现更快的求逆和更高效的训练。实验表明，KFC 能够比 SGD 更快的训练卷积网络，具有在分布式环境中应用的潜力。

Feb, 2016

在克罗内克分解的特征基上进行快速近似自然梯度下降

本研究提出了一种基于 Kronecker 分解的特殊的对角方差近似算法，可以提高多层神经网络的优化速度。

Jun, 2018

现代神经网络结构的克罗内克分解近似曲率

使用 K-FAC 方法优化神经网络架构中的线性权重共享层，在不同的设置下展开和缩小两种变体都能加快训练速度，缩减了计算成本并提升了训练效果。

Nov, 2023

扩展 Kronecker 分解近似曲率的续学习

提出了一种二次罚函数方法用于神经网络的不断学习，其中包含批量归一化层。通过考虑实例间的关系，扩展了 K-FAC 方法，以便在实际情况下正确逼近深度神经网络的 Hessian 矩阵。同时提出了一种权重合并和再参数化方法，并且对批归一化的统计参数进行了适当处理。实验结果表明，该方法在各项指标上均优于基准算法。

Apr, 2020

基于 Kronecker-Factored 近似曲率的大规模分布式二阶优化在深度卷积神经网络中的应用

本文提出了使用次优化方法的替代方法，以解决深度神经网络的大规模分布式训练中可能出现的泛化差距问题，同时在基准测试中，我们的方法能够在更短的迭代次数内，就实现与一阶方法相当的泛化能力，并能够处理更大的 mini-batch。

Nov, 2018

结构化逆快速自然梯度：大型神经网络的内存高效和数值稳定 KFAC

用结构化的无逆自然梯度下降方法（SINGD）解决了 KFAC 方法在低精度训练中的内存低效和数值不稳定的问题，并在大型神经网络上表现出很好的性能，甚至在半精度上常常优于 AdamW。

Dec, 2023

EA-CG：一种用于训练全连接神经网络的近似二阶方法

该研究提出了一个实用的近似二阶方法来训练全连接神经网络，其中包括一个 Hessian matrix 的近似和一个共轭梯度（CG）算法，并且通过与一级近似结合的共轭梯度算法，大大减少了空间和时间复杂度。经验研究表明，该方法具有高效性和效果。

Feb, 2018