Oct, 2023

TRANSOM: 一个高效的容错系统用于训练 LLMs

TL;DR该研究提出了一种名为 TRANSOM 的新型容错大模型训练系统,包括 TOL 自动容错与恢复机制、TEE 多维度度量自动异常检测系统和 TCE 异步访问容错与恢复技术,初步结果表明 TRANSOM 显著提高了集群上大规模语言模型训练的效率。