Jun, 2024

增强受限带宽网络中大模型训练的稳定性

TL;DR通过改进分区算法解决大规模语言模型训练中的收敛问题,提高分布式训练效率,并保持可靠的收敛性能。