BriefGPT.xyz
Ask
alpha
关键词
gradient staleness
搜索结果 - 2
ICLR
梯度滞后的间隔感知缓解
该研究提出了一种名为 Gap-Aware(GA)的新的异步 - 分布式方法,通过线性惩罚梯度滞后度量 Gap 并在大量工作者的情况下表现良好,即使在异步环境中应用 GA,动量仍然有益处。
PDF
5 years ago
在分布式异步环境下调控动量
提出了一种名为 DANA 的技术,旨在解决分布式异步训练的梯度走样问题,可以加速深度神经网络的训练过程且不影响最终精度。该方法在 CIFAR 和 ImageNet 数据集上表现出比现有方法更好的性能。
PDF
5 years ago
Prev
Next