分支训练 MiX：将专家 LLMs 混合到一个专家混合 LLM 中

Mar, 2024

分支训练 MiX：将专家 LLMs 混合到一个专家混合 LLM 中

Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Sainbayar Sukhbaatar, Olga Golovneva, Vasu Sharma, Hu Xu, Xi Victoria Lin...

TL;DR我们研究了训练大型语言模型在多个专业领域（如编码、数学推理和世界知识）中具备能力的高效方法。我们的方法名为 Branch-Train-MiX（BTX），从一个种子模型开始，在高吞吐量和减少通信成本的尴尬地并行训练专家。在专家异步训练后，BTX 将它们的前馈参数作为混合专家（MoE）层的专家团队，并平均剩余参数，接着采用 MoE 微调阶段学习标记级别的路由。BTX 推广了两种特殊情况，Branch-Train-Merge 方法不需要 MoE 微调阶段学习路由，而稀疏升级则省略了专家异步训练阶段。与替代方法相比，BTX 在准确性和效率之间取得了最佳平衡。

Abstract

We investigate efficient methods for training large language models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named

large language models specialized domains branch-train-mix mixture-of-expert accuracy-efficiency tradeoff

发现论文，激发创造

分支 - 训练 - 合并：专家语言模型的尴尬并行训练

提出了 Branch-Train-Merge (BTM) 算法来高效地训练大型语言模型，该算法通过学习一组具有独立专业性的语言模型 (ELM)，将一个新类的 LLMs 的子部分独立训练在不同的数据子集上，并实验表明相对于当前 LLMs 的训练方法，BTM 能够获得更好的性能且相对于训练成本而言更高效

Aug, 2022

令牌混合：通过跨样本聚合实现高效的 LLMs

提出了一种全可微分的模型，称为 Mixture of Tokens，它在避免了 Mixture of Experts 模型的困难的同时保留了其优点，通过在专家之前混合来自不同示例的标记，使模型能够从所有标记 - 专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。

Oct, 2023

LLaMA-MoE：从 LLaMA 进行连续预训练构建混合专家系统

通过从现有的大型语言模型构建混合专家（MoE）模型，我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略，最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明，在训练 200B 标记后，LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。

Jun, 2024

不是所有专家都是平等的：用于混合专家大型语言模型的高效专家修剪和跳过

通过引入插拔式专家级稀疏化技术，本文主要针对 MoE LLMs 的部署效率进行了改进，提出了任务无关和任务特定的专家修剪和跳过方法，从而同时减小模型大小、增加推理速度并保持满意的性能。

Feb, 2024

内存高效的 NLLB-200：大规模多语言机器翻译模型的语言专家剪枝

提出了一种修剪方法，可在保持翻译质量的同时，移除多语言机器翻译中不相关的习惯用语，并检测出特定语种的专家，以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。

Dec, 2022

专家混合模型

引入了 Mixtral 8x7B，一种稀疏的专家混合（SMoE）语言模型，采用了与 Mistral 7B 相同的架构，每个层由 8 个前馈块（即专家）组成，并通过路由网络选择两个专家处理当前状态和组合它们的输出，最终得到使用 13B 活跃参数的 47B 参数模型，在数学、代码生成和多语言基准测试中表现优秀，并提供了针对指令的精调模型 Mixtral 8x7B - Instruct，在人类基准测试中超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - chat model。

Jan, 2024

Skywork-MoE: 混合专家语言模型培训技术的深入研究

在本研究中，我们介绍了 Skywork-MoE 的训练方法，它是一个具有 1460 亿参数和 16 个专家的高性能混合专家（MoE）大型语言模型（LLM），它是从我们的 Skywork-13B 模型的预先存在的密集检查点初始化的。我们对再利用与从头训练初始化之间的比较效果进行了探索研究，发现这两种方法的选择应该考虑到现有密集检查点的性能和 MoE 训练预算。我们突出了两个创新技术：门控逻辑归一化，可以改善专家多样化，以及自适应辅助损失系数，可以对每层进行调整。我们的实验结果验证了这些方法的有效性。利用这些技术和见解，我们对我们的 SkyPile 语料库的一个压缩子集进行了再利用训练，评估结果证明我们的模型在广泛的基准测试中表现出强大的性能。

Jun, 2024

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

用于参数高效微调的直觉感知的一级专家的混合模型

多任务场景下，大型语言模型（LLMs）面临着适应性挑战，而《混合专家模型》（MoE）以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》，利用实例的内在语义聚类处理多任务情境，为优化特征分配提供了隐含指导。此外，引入了先进的《Rank-1 专家公式》来管理一系列直觉，在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明，《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15％的整体准确度提升。

Apr, 2024