Feb, 2022

深度神经网络的 Mini-Block Fisher 方法

TL;DR该论文提出了一种介于一阶方法和二阶方法之间的 “mini-block Fisher (MBF)” 预处理梯度方法,利用 GPU 的并行性实现了对每个层中大量矩阵的高效计算,且在时间效率和泛化能力方面都优于基线方法,并被证明其理想版本能够呈线性收敛。