Skywork-MoE: 混合专家语言模型培训技术的深入研究

Jun, 2024

Skywork-MoE: 混合专家语言模型培训技术的深入研究

Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

Tianwen Wei, Bo Zhu, Liang Zhao, Cheng Cheng, Biye Li...

TL;DR在本研究中，我们介绍了 Skywork-MoE 的训练方法，它是一个具有 1460 亿参数和 16 个专家的高性能混合专家（MoE）大型语言模型（LLM），它是从我们的 Skywork-13B 模型的预先存在的密集检查点初始化的。我们对再利用与从头训练初始化之间的比较效果进行了探索研究，发现这两种方法的选择应该考虑到现有密集检查点的性能和 MoE 训练预算。我们突出了两个创新技术：门控逻辑归一化，可以改善专家多样化，以及自适应辅助损失系数，可以对每层进行调整。我们的实验结果验证了这些方法的有效性。利用这些技术和见解，我们对我们的 SkyPile 语料库的一个压缩子集进行了再利用训练，评估结果证明我们的模型在广泛的基准测试中表现出强大的性能。

Abstract

In this technical report, we introduce the training methodologies implemented in the development of skywork-moe, a high-performance mixture-of-ex

skywork-moe mixture-of-experts training methodologies upcycling gating logit normalization

发现论文，激发创造

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

不是所有专家都是平等的：用于混合专家大型语言模型的高效专家修剪和跳过

通过引入插拔式专家级稀疏化技术，本文主要针对 MoE LLMs 的部署效率进行了改进，提出了任务无关和任务特定的专家修剪和跳过方法，从而同时减小模型大小、增加推理速度并保持满意的性能。

Feb, 2024

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024

稀疏专家混合下的视觉语言模型扩展

本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战，并在等效计算成本下实现最先进性能的潜力，通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷，本文为大规模视觉语言模型的扩展提供了宝贵的洞见，并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。

Mar, 2023

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

LLaMA-MoE：从 LLaMA 进行连续预训练构建混合专家系统

通过从现有的大型语言模型构建混合专家（MoE）模型，我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略，最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明，在训练 200B 标记后，LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。

Jun, 2024

预训练语言模型的参数高效专家混合架构

本文提出了一种参数高效的混合专家架构，通过在专家层中共享参数矩阵中心张量的信息，并通过辅助张量增加各个专家的特异性，从而通过矩阵乘积算子来实现受量子多体物理学影响的张量分解，以解决混合专家架构中存在的参数膨胀问题，实验结果表明新方法具有更好的性能和效率。

Mar, 2022