Jan, 2024

OpenMoE: 开放混合专家语言模型的早期探索

TL;DR为了更好地帮助开源社区了解基于混合专家的大型语言模型,我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型,参数范围从 650M 到 34B,训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡,突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析,得出了三个重要发现:上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现,混合专家模型中的路由决策主要基于标记 ID,与上下文相关性较小。标记对专家的分配在预训练阶段早期确定,并且在很大程度上保持不变。这种不完美的路由可能导致性能下降,尤其是在多轮对话等顺序任务中,较后出现的标记更有可能被丢弃。最后,我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展,我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。