BriefGPT.xyz
Ask
alpha
关键词
workload manager
搜索结果 - 1
Unicron: 大规模经济化自愈 LLM 训练
Unicron 是一个用于大规模语言模型训练的高效自愈工作负载管理器,在一个 128-GPU 分布式集群上的实际部署中,它展示了与最先进方法相比高达 1.9 倍的训练效率提升,显著降低了故障恢复成本,并提高了大规模语言模型训练的可靠性。
PDF
6 months ago
Prev
Next