神经元上的梯度下降及其与近似二阶优化的联系
提出一种名为 K-FAC 的方法来近似神经网络中的自然梯度下降,该方法基于一种高效的逆近似方法来近似神经网络的 Fisher 信息矩阵,它既不是对角线矩阵也不是低秩矩阵,与先前提出的近似自然梯度 / 牛顿方法相比,K-FAC 在高度随机的优化方案中的表现非常好。
Mar, 2015
本文提出了一种新的用于训练深度神经网络的二阶优化方法,叫做 TKFAC(Trace-restricted Kronecker-factored Approximate Curvature),其包括对 Fisher 信息矩阵的逼近和新的阻尼技术,在实验中表现优异。
Nov, 2020
提出了 Krondocker 因式近似曲率法(KFAC)来降低计算成本,使得 PINN 模型能够扩展到更大的网络规模。此方法在小规模问题上与昂贵的二阶方法竞争,对于更高维度的神经网络和 PDEs 有更好的扩展能力,并持续优于一阶方法和 LBFGS。
May, 2024
本文提出了基于结构化概率模型的 KFC 来近似求解卷积网络的 Fisher 矩阵,采用 Kronecker deomposition 来使得每个块都是小矩阵,从而实现更快的求逆和更高效的训练。实验表明,KFC 能够比 SGD 更快的训练卷积网络,具有在分布式环境中应用的潜力。
Feb, 2016
提出了一种二次罚函数方法用于神经网络的不断学习,其中包含批量归一化层。通过考虑实例间的关系,扩展了 K-FAC 方法,以便在实际情况下正确逼近深度神经网络的 Hessian 矩阵。同时提出了一种权重合并和再参数化方法,并且对批归一化的统计参数进行了适当处理。实验结果表明,该方法在各项指标上均优于基准算法。
Apr, 2020
本文提出了使用次优化方法的替代方法,以解决深度神经网络的大规模分布式训练中可能出现的泛化差距问题,同时在基准测试中,我们的方法能够在更短的迭代次数内,就实现与一阶方法相当的泛化能力,并能够处理更大的 mini-batch。
Nov, 2018
用结构化的无逆自然梯度下降方法(SINGD)解决了 KFAC 方法在低精度训练中的内存低效和数值不稳定的问题,并在大型神经网络上表现出很好的性能,甚至在半精度上常常优于 AdamW。
Dec, 2023
该研究提出了一个实用的近似二阶方法来训练全连接神经网络,其中包括一个 Hessian matrix 的近似和一个共轭梯度(CG)算法,并且通过与一级近似结合的共轭梯度算法,大大减少了空间和时间复杂度。经验研究表明,该方法具有高效性和效果。
Feb, 2018