BriefGPT.xyz
大模型
Ask
alpha
关键词
gradient synchronization
搜索结果 - 4
分布式本地梯度方法的通信高效自适应批量大小策略
现代深度神经网络通常需要分布式训练以应对其巨大的规模,但当工作节点数量增加时,通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略,用于局部梯度方法,通过自适应地增加批量大小来减小小批量梯度
→
PDF
12 days ago
Disttack: 面向分布式 GNN 训练的图对抗攻击
Disttack 是用于分布式 GNN 训练的首个对抗攻击框架,通过在单个计算节点中注入对抗攻击来破坏分布式 GNN 训练的梯度同步,导致训练后 GNN 的性能显著下降。
PDF
2 months ago
Zen: 高效稀疏张量同步的分布式深度神经网络训练
这篇论文研究了在分布式训练深度神经网络中,梯度同步的通信性能瓶颈问题,并发现了梯度张量的稀疏性可以减少通信量从而提高整体训练效率,通过系统地探索通信方案的设计空间,找到了最佳方案,并开发了名为 Zen 的梯度同步系统,通过对稀疏张量的近似实
→
PDF
9 months ago
闪电般的 ImageNet/ResNet-50 训练:大规模分布式 SGD
使用批次大小控制和标签平滑来解决大批次训练不稳定性问题;使用 2D-Torus all-reduce 解决梯度同步过程中的开销,实现了在 ABC 集群上在 122 秒内训练 ImageNet/ResNet-50 且精度损失不显著的分布式深度
→
PDF
6 years ago
Prev
Next