mini-batch stochastic gradient methods | BriefGPT

关键词mini-batch stochastic gradient methods

搜索结果 - 1

ICLR不使用大型小批次，使用本地化 SGD
本文提出了一种后局部随机梯度下降（SGD）方法，并通过标准基准测试表明，相比大批量训练，该方法显著提高了模型的泛化性能，同时保持相同的效率和可扩展性。此外，本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
PDF6 years ago