Dec, 2023
结构化逆快速自然梯度:大型神经网络的内存高效和数值稳定 KFAC
Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC for Large Neural Nets
Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus Kristiadi...
TL;DR用结构化的无逆自然梯度下降方法(SINGD)解决了 KFAC 方法在低精度训练中的内存低效和数值不稳定的问题,并在大型神经网络上表现出很好的性能,甚至在半精度上常常优于 AdamW。