Jun, 2024

LLaMA-MoE:从 LLaMA 进行连续预训练构建混合专家系统

TL;DR通过从现有的大型语言模型构建混合专家(MoE)模型,我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略,最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明,在训练 200B 标记后,LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。