Dec, 2023

结构化逆快速自然梯度:大型神经网络的内存高效和数值稳定 KFAC

TL;DR用结构化的无逆自然梯度下降方法(SINGD)解决了 KFAC 方法在低精度训练中的内存低效和数值不稳定的问题,并在大型神经网络上表现出很好的性能,甚至在半精度上常常优于 AdamW。