Mar, 2024

分支训练 MiX:将专家 LLMs 混合到一个专家混合 LLM 中

TL;DR我们研究了训练大型语言模型在多个专业领域(如编码、数学推理和世界知识)中具备能力的高效方法。我们的方法名为 Branch-Train-MiX(BTX),从一个种子模型开始,在高吞吐量和减少通信成本的尴尬地并行训练专家。在专家异步训练后,BTX 将它们的前馈参数作为混合专家(MoE)层的专家团队,并平均剩余参数,接着采用 MoE 微调阶段学习标记级别的路由。BTX 推广了两种特殊情况,Branch-Train-Merge 方法不需要 MoE 微调阶段学习路由,而稀疏升级则省略了专家异步训练阶段。与替代方法相比,BTX 在准确性和效率之间取得了最佳平衡。