卷积层Kronecker分解近似Fisher矩阵

Feb, 2016

A Kronecker-factored approximate Fisher matrix for convolution layers

Roger Grosse, James Martens

TL;DR本文提出了基于结构化概率模型的KFC来近似求解卷积网络的Fisher矩阵，采用Kronecker deomposition来使得每个块都是小矩阵，从而实现更快的求逆和更高效的训练。实验表明，KFC能够比SGD更快的训练卷积网络，具有在分布式环境中应用的潜力。

Abstract

Second-order optimization methods such as natural gradient descent have the potential to speed up training of neural networks by correcting for the curvature of the loss function. Unfortunately, the exact natural

发现论文，激发创造

用 Kronecker 分解的近似曲率优化神经网络

提出一种名为K-FAC的方法来近似神经网络中的自然梯度下降，该方法基于一种高效的逆近似方法来近似神经网络的Fisher信息矩阵，它既不是对角线矩阵也不是低秩矩阵，与先前提出的近似自然梯度/牛顿方法相比，K-FAC在高度随机的优化方案中的表现非常好。

Mar, 2015

在克罗内克分解的特征基上进行快速近似自然梯度下降

本研究提出了一种基于Kronecker分解的特殊的对角方差近似算法，可以提高多层神经网络的优化速度。

Jun, 2018

扩展 Kronecker 分解近似曲率的续学习

提出了一种二次罚函数方法用于神经网络的不断学习，其中包含批量归一化层。通过考虑实例间的关系，扩展了K-FAC方法，以便在实际情况下正确逼近深度神经网络的Hessian矩阵。同时提出了一种权重合并和再参数化方法，并且对批归一化的统计参数进行了适当处理。实验结果表明，该方法在各项指标上均优于基准算法。

Apr, 2020

训练深度神经网络的实用拟牛顿方法

本文提出了一种使用Kronecker乘积近似Hessian矩阵和结构化梯度的Kronecker分块对角线BFGS和L-BFGS方法用于深度神经网络训练，通过测试验证其性能优于或与KFAC和一阶随机方法相当。

Jun, 2020

解剖Hessian：理解神经网络中Hessian的共同结构

本论文探讨了神经网络的Loss Surface的Hessian特性，提出了层级Hessian的分解假设，分析了这些小矩阵的特性并证明了随机2层神经网络的前几个特征空间结构, 同时讨论了不同模型的前k个特征空间有非常高的重叠性, 并得到了更好的神经网络显式推导一般化界限。

Oct, 2020

自然梯度的痕迹限制克罗内克-分解近似

本文提出了一种新的用于训练深度神经网络的二阶优化方法，叫做TKFAC（Trace-restricted Kronecker-factored Approximate Curvature），其包括对Fisher信息矩阵的逼近和新的阻尼技术，在实验中表现优异。

Nov, 2020

神经元上的梯度下降及其与近似二阶优化的联系

本文挑战了广泛持有的信念，发现由于其近似，Kronecker-Factored是不与二阶更新密切相关的，并且在计算代价和数据效率方面往往优于此类更新算法，同时提出证据表明KFAC逼近第一阶算法（对神经元进行梯度下降），而非权重，为令人惊讶的结果。

Jan, 2022

KrADagrad：克罗内克近似主导梯度预处理随机优化

该论文提出了一种新颖的矩阵分解方法 Kronecker Approximation-Domination (KrAD)，用于直接近似实验 Fisher 矩阵的逆，避免了反转和 64 位精度，从而实现与 Shampoo 相似的计算成本和相同的 regret，同时在 32 位精度下比 Shampoo 表现更好。

May, 2023

现代神经网络结构的克罗内克分解近似曲率

使用K-FAC方法优化神经网络架构中的线性权重共享层，在不同的设置下展开和缩小两种变体都能加快训练速度，缩减了计算成本并提升了训练效果。

Nov, 2023

物理知识神经网络的克罗内克因式化近似曲率

提出了Krondocker因式近似曲率法（KFAC）来降低计算成本，使得PINN模型能够扩展到更大的网络规模。此方法在小规模问题上与昂贵的二阶方法竞争，对于更高维度的神经网络和PDEs有更好的扩展能力，并持续优于一阶方法和LBFGS。

May, 2024