ICMLJan, 2022

神经元上的梯度下降及其与近似二阶优化的联系

TL;DR本文挑战了广泛持有的信念,发现由于其近似,Kronecker-Factored 是不与二阶更新密切相关的,并且在计算代价和数据效率方面往往优于此类更新算法,同时提出证据表明 KFAC 逼近第一阶算法(对神经元进行梯度下降),而非权重,为令人惊讶的结果。