Nov, 2023

DiLoCo: 分布式低通信语言模型训练

TL;DR利用分布式优化算法 DiLoCo,可以在受连接限制的设备群组中训练语言模型,具有与完全同步优化相媲美的性能,但通信开销降低了 500 倍,并且对于数据分布和资源可用性的变化都具有良好的鲁棒性。