Dec, 2023

Unicron: 大规模经济化自愈 LLM 训练

TL;DRUnicron 是一个用于大规模语言模型训练的高效自愈工作负载管理器,在一个 128-GPU 分布式集群上的实际部署中,它展示了与最先进方法相比高达 1.9 倍的训练效率提升,显著降低了故障恢复成本,并提高了大规模语言模型训练的可靠性。