Jun, 2023

OSP:通过 2 阶段同步提高分布式模型训练效率

TL;DR本研究旨在提出一种新的模型同步方法,名为 Overlapped Synchronization Parallel (OSP),通过使用 2 级同步方法和基于局部梯度的参数校正 (LGP),以达到有效的通信,避免丢失梯度导致的精度损失,并在测试中得到了 50% 的吞吐量提升,而不会丢失精度。