BriefGPT.xyz
Ask
alpha
关键词
localmixer
搜索结果 - 1
ICLR
利用本地损失来放大前置梯度
本文介绍了一种改进的前向梯度学习算法,通过应用激活项的扰动和引入大量的局部贪婪损失函数以及新的局部学习结构 LocalMixer,可以显著降低梯度估计的方差,实现在 MNIST、CIFAR-10 和 ImageNet 数据集上与反向传播算法
→
PDF
2 years ago
Prev
Next