深度神经网络的 Mini-Block Fisher 方法
本文提出了一种使用 Kronecker 乘积近似 Hessian 矩阵和结构化梯度的 Kronecker 分块对角线 BFGS 和 L-BFGS 方法用于深度神经网络训练,通过测试验证其性能优于或与 KFAC 和一阶随机方法相当。
Jun, 2020
本文通过神经动力学方法研究随机连接网络中的 Fisher 信息矩阵,证明了其为逐元素块对角矩阵并附带少量非块对角元素小量项,为 Y. Ollivier 的准对角自然梯度法提供了理论依据,并成功地推导出 Fisher 信息的逆矩阵,从而得到了显式的自然梯度形式,极大地加速了随机梯度学习。
Aug, 2018
本文提出了基于结构化概率模型的 KFC 来近似求解卷积网络的 Fisher 矩阵,采用 Kronecker deomposition 来使得每个块都是小矩阵,从而实现更快的求逆和更高效的训练。实验表明,KFC 能够比 SGD 更快的训练卷积网络,具有在分布式环境中应用的潜力。
Feb, 2016
该研究论文介绍了一种扩展的阻尼块牛顿法,用于解决神经网络中包含质量矩阵的线性方程组,以及求解非线性参数的方法,该方法在计算代价上具有较高效性,并且优于 BFGS 算法。
Jul, 2024
本文提出了一种新的用于训练深度神经网络的二阶优化方法,叫做 TKFAC(Trace-restricted Kronecker-factored Approximate Curvature),其包括对 Fisher 信息矩阵的逼近和新的阻尼技术,在实验中表现优异。
Nov, 2020
本研究提出了一种名为 FNGD 的快速自然梯度下降方法,通过在第一个迭代周期内计算逆运算,避免了在每次迭代中计算逆运算,从而使计算复杂度接近于一阶方法。通过在图像分类和机器翻译任务上进行实证评估,证明了所提出的 FNGD 方法的高效性。
Mar, 2024
该研究使用 Fisher 核的角度探索 Batch Normalization 的优化,提出了一种新的 Mixture Normalization 方法,通过 CIFAR-10 和 CIFAR-100 实验验证能够有效加速深度神经网络模型的训练
Jun, 2018
我们提出了一种高效的分块对角近似方法来计算前馈神经网络的高斯 - 牛顿矩阵,与一阶优化方法相比,有时能够显著提高优化性能。此外,我们的方法无需繁琐的调参,即可提供良好的性能。在针对分段线性转移函数进行优化时,网络目标函数可能不存在可微的局部极大值,这也可以部分解释为什么这样的转移函数有助于有效优化。
Jun, 2017
提出一种名为 K-FAC 的方法来近似神经网络中的自然梯度下降,该方法基于一种高效的逆近似方法来近似神经网络的 Fisher 信息矩阵,它既不是对角线矩阵也不是低秩矩阵,与先前提出的近似自然梯度 / 牛顿方法相比,K-FAC 在高度随机的优化方案中的表现非常好。
Mar, 2015
通过提出改进的经验 Fisher(iEF)方法,该论文研究了近似自然梯度下降(NGD)方法中经验 Fisher 信息矩阵的逆比例缩放问题,并在实验中评估了该方法的性能,在参数高效微调、深度学习优化等方面取得了较好的收敛性和拟合能力。
Jun, 2024