BriefGPT.xyz
Ask
alpha
关键词
synchronizing gradients
搜索结果 - 1
ACCO:分布式 LLM 训练中隐藏通信的累积通信技术
我们提出了一种适用于大规模语言模型分布式训练的高效优化算法,可以减小通信成本,加速收敛速度,并且适应异构硬件。
PDF
a month ago
Prev
Next