BriefGPT.xyz
大模型
Ask
alpha
关键词
sgd variant
搜索结果 - 1
Local AdaAlter: 基于自适应学习率的通信高效性随机梯度下降
本篇论文提出了一种新的 SGD 变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了 1B 字数据集的训练时间 30%。
PDF
5 years ago
Prev
Next