Apr, 2023

FlexMoE: 通过动态设备放置实现大规模稀疏预训练模型训练的扩展

TL;DR本文提出了一种名为 FlexMoE 的 DNN 训练框架,通过动态专家管理和设备布置机制,以及调度模块来优化大规模预训练模型训练过程中动态数据流所导致的效率问题,实验表明其在自然语言处理模型和视觉模型等领域具有较强的可扩展性和优越的性能。