ICLROct, 2022

利用本地损失来放大前置梯度

TL;DR本文介绍了一种改进的前向梯度学习算法,通过应用激活项的扰动和引入大量的局部贪婪损失函数以及新的局部学习结构 LocalMixer,可以显著降低梯度估计的方差,实现在 MNIST、CIFAR-10 和 ImageNet 数据集上与反向传播算法相媲美的结果。