深度神经网络的 Mini-Block Fisher 方法

Feb, 2022

深度神经网络的 Mini-Block Fisher 方法

A Mini-Block Fisher Method for Deep Neural Networks

Achraf Bahamou, Donald Goldfarb, Yi Ren

TL;DR该论文提出了一种介于一阶方法和二阶方法之间的 “mini-block Fisher (MBF)” 预处理梯度方法，利用 GPU 的并行性实现了对每个层中大量矩阵的高效计算，且在时间效率和泛化能力方面都优于基线方法，并被证明其理想版本能够呈线性收敛。

Abstract

deep neural networks (DNNs) are currently predominantly trained using first-order methods. Some of these methods (e.g., Adam, AdaGrad, and RMSprop, and their variants) incorporate a small amount of curvature information by using a diagonal matrix to precondition the →

deep neural networks mini-block fisher preconditioned gradient method stochastic gradient parallelism

发现论文，激发创造

训练深度神经网络的实用拟牛顿方法

本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练，通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。

Jun, 2020

随机深度网络的 Fisher 信息和自然梯度学习

本文通过神经动力学方法研究随机连接网络中的 Fisher 信息矩阵，证明了其为逐元素块对角矩阵并附带少量非块对角元素小量项，为 Y. Ollivier 的准对角自然梯度法提供了理论依据，并成功地推导出 Fisher 信息的逆矩阵，从而得到了显式的自然梯度形式，极大地加速了随机梯度学习。

Aug, 2018

卷积层 Kronecker 分解近似 Fisher 矩阵

本文提出了基于结构化概率模型的 KFC 来近似求解卷积网络的 Fisher 矩阵，采用 Kronecker deomposition 来使得每个块都是小矩阵，从而实现更快的求逆和更高效的训练。实验表明，KFC 能够比 SGD 更快的训练卷积网络，具有在分布式环境中应用的潜力。

Feb, 2016

神经网络方法的快速迭代求解器：II. 1D 扩散 - 反应问题与数据拟合

该研究论文介绍了一种扩展的阻尼块牛顿法，用于解决神经网络中包含质量矩阵的线性方程组，以及求解非线性参数的方法，该方法在计算代价上具有较高效性，并且优于 BFGS 算法。

Jul, 2024

自然梯度的痕迹限制克罗内克 - 分解近似

本文提出了一种新的用于训练深度神经网络的二阶优化方法，叫做 TKFAC（Trace-restricted Kronecker-factored Approximate Curvature），其包括对 Fisher 信息矩阵的逼近和新的阻尼技术，在实验中表现优异。

Nov, 2020

深度学习的无逆自然梯度下降快速方法

本研究提出了一种名为 FNGD 的快速自然梯度下降方法，通过在第一个迭代周期内计算逆运算，避免了在每次迭代中计算逆运算，从而使计算复杂度接近于一阶方法。通过在图像分类和机器翻译任务上进行实证评估，证明了所提出的 FNGD 方法的高效性。

Mar, 2024

通过批量归一化模型中分离变化模式以加速训练

该研究使用 Fisher 核的角度探索 Batch Normalization 的优化，提出了一种新的 Mixture Normalization 方法，通过 CIFAR-10 和 CIFAR-100 实验验证能够有效加速深度神经网络模型的训练

Jun, 2018

深度学习的实用高斯牛顿优化

我们提出了一种高效的分块对角近似方法来计算前馈神经网络的高斯 - 牛顿矩阵，与一阶优化方法相比，有时能够显著提高优化性能。此外，我们的方法无需繁琐的调参，即可提供良好的性能。在针对分段线性转移函数进行优化时，网络目标函数可能不存在可微的局部极大值，这也可以部分解释为什么这样的转移函数有助于有效优化。

Jun, 2017

用 Kronecker 分解的近似曲率优化神经网络

提出一种名为 K-FAC 的方法来近似神经网络中的自然梯度下降，该方法基于一种高效的逆近似方法来近似神经网络的 Fisher 信息矩阵，它既不是对角线矩阵也不是低秩矩阵，与先前提出的近似自然梯度 / 牛顿方法相比，K-FAC 在高度随机的优化方案中的表现非常好。

Mar, 2015

一种改进的经验费歇近似方法用于自然梯度下降

通过提出改进的经验 Fisher（iEF）方法，该论文研究了近似自然梯度下降（NGD）方法中经验 Fisher 信息矩阵的逆比例缩放问题，并在实验中评估了该方法的性能，在参数高效微调、深度学习优化等方面取得了较好的收敛性和拟合能力。

Jun, 2024