卷积层Kronecker分解近似Fisher矩阵
提出一种名为K-FAC的方法来近似神经网络中的自然梯度下降,该方法基于一种高效的逆近似方法来近似神经网络的Fisher信息矩阵,它既不是对角线矩阵也不是低秩矩阵,与先前提出的近似自然梯度/牛顿方法相比,K-FAC在高度随机的优化方案中的表现非常好。
Mar, 2015
提出了一种二次罚函数方法用于神经网络的不断学习,其中包含批量归一化层。通过考虑实例间的关系,扩展了K-FAC方法,以便在实际情况下正确逼近深度神经网络的Hessian矩阵。同时提出了一种权重合并和再参数化方法,并且对批归一化的统计参数进行了适当处理。实验结果表明,该方法在各项指标上均优于基准算法。
Apr, 2020
本文提出了一种使用Kronecker乘积近似Hessian矩阵和结构化梯度的Kronecker分块对角线BFGS和L-BFGS方法用于深度神经网络训练,通过测试验证其性能优于或与KFAC和一阶随机方法相当。
Jun, 2020
本论文探讨了神经网络的Loss Surface的Hessian特性,提出了层级Hessian的分解假设,分析了这些小矩阵的特性并证明了随机2层神经网络的前几个特征空间结构, 同时讨论了不同模型的前k个特征空间有非常高的重叠性, 并得到了更好的神经网络显式推导一般化界限。
Oct, 2020
本文提出了一种新的用于训练深度神经网络的二阶优化方法,叫做TKFAC(Trace-restricted Kronecker-factored Approximate Curvature),其包括对Fisher信息矩阵的逼近和新的阻尼技术,在实验中表现优异。
Nov, 2020
本文挑战了广泛持有的信念,发现由于其近似,Kronecker-Factored是不与二阶更新密切相关的,并且在计算代价和数据效率方面往往优于此类更新算法,同时提出证据表明KFAC逼近第一阶算法(对神经元进行梯度下降),而非权重,为令人惊讶的结果。
Jan, 2022
该论文提出了一种新颖的矩阵分解方法 Kronecker Approximation-Domination (KrAD),用于直接近似实验 Fisher 矩阵的逆,避免了反转和 64 位精度,从而实现与 Shampoo 相似的计算成本和相同的 regret,同时在 32 位精度下比 Shampoo 表现更好。
May, 2023
提出了Krondocker因式近似曲率法(KFAC)来降低计算成本,使得PINN模型能够扩展到更大的网络规模。此方法在小规模问题上与昂贵的二阶方法竞争,对于更高维度的神经网络和PDEs有更好的扩展能力,并持续优于一阶方法和LBFGS。
May, 2024