BriefGPT.xyz
大模型
Ask
alpha
关键词
mini-batch stochastic gradient methods
搜索结果 - 1
ICLR
不使用大型小批次,使用本地化 SGD
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
PDF
6 years ago
Prev
Next