用 Kronecker 分解的近似曲率优化神经网络
本文提出了基于结构化概率模型的KFC来近似求解卷积网络的Fisher矩阵,采用Kronecker deomposition来使得每个块都是小矩阵,从而实现更快的求逆和更高效的训练。实验表明,KFC能够比SGD更快的训练卷积网络,具有在分布式环境中应用的潜力。
Feb, 2016
本文首次分析了自然梯度下降在非线性神经网络中的收敛速度,发现若序列导数矩阵显满秩且在初始化附近稳定,则该方法在随机初始化时就能快速收敛。对于深度 ReLU 神经网络,作者在过度参数化及输入非退化的条件下论证了这两个条件在训练期间均得以保持,并将分析拓展到其他损失函数,同时说明使用 K-FAC 近似方法也能在相同条件下达到全局最小值。
May, 2019
提出了一种二次罚函数方法用于神经网络的不断学习,其中包含批量归一化层。通过考虑实例间的关系,扩展了K-FAC方法,以便在实际情况下正确逼近深度神经网络的Hessian矩阵。同时提出了一种权重合并和再参数化方法,并且对批归一化的统计参数进行了适当处理。实验结果表明,该方法在各项指标上均优于基准算法。
Apr, 2020
本文提出了一种使用Kronecker乘积近似Hessian矩阵和结构化梯度的Kronecker分块对角线BFGS和L-BFGS方法用于深度神经网络训练,通过测试验证其性能优于或与KFAC和一阶随机方法相当。
Jun, 2020
本文提出了一种新的用于训练深度神经网络的二阶优化方法,叫做TKFAC(Trace-restricted Kronecker-factored Approximate Curvature),其包括对Fisher信息矩阵的逼近和新的阻尼技术,在实验中表现优异。
Nov, 2020
本文挑战了广泛持有的信念,发现由于其近似,Kronecker-Factored是不与二阶更新密切相关的,并且在计算代价和数据效率方面往往优于此类更新算法,同时提出证据表明KFAC逼近第一阶算法(对神经元进行梯度下降),而非权重,为令人惊讶的结果。
Jan, 2022
该论文提出了一种新颖的矩阵分解方法 Kronecker Approximation-Domination (KrAD),用于直接近似实验 Fisher 矩阵的逆,避免了反转和 64 位精度,从而实现与 Shampoo 相似的计算成本和相同的 regret,同时在 32 位精度下比 Shampoo 表现更好。
May, 2023
提出了Krondocker因式近似曲率法(KFAC)来降低计算成本,使得PINN模型能够扩展到更大的网络规模。此方法在小规模问题上与昂贵的二阶方法竞争,对于更高维度的神经网络和PDEs有更好的扩展能力,并持续优于一阶方法和LBFGS。
May, 2024