LocMoE：一种用于大型语言模型训练的低开销 MoE

Jan, 2024

LocMoE：一种用于大型语言模型训练的低开销 MoE

LocMoE: A Low-overhead MoE for Large Language Model Training

Jing Li, Zhijie Sun, Xuan He, Li Zeng, Yi Lin...

TL;DR通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Abstract

The Mixtures-of-Experts (MoE) model is a widespread distributed and integrated learning method for large language models (LLM), which is favored due to its ability to sparsify and expand models efficiently. However, the performance of MoE is limited by load imbalance and →

mixtures-of-experts model distributed learning load imbalance high latency routing strategy

发现论文，激发创造

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024

LocMoE+：增强型路由器具有令牌特征感知的高效 LLM 预训练

LocMoE + 是低成本的改进版本，通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题，验证实验结果显示，每个专家处理的令牌数量可以减少超过 60%，在与通信优化相结合的情况下，训练效率平均提高了 5.4% 至 46.6%，在微调后，LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。

May, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

Mixture of Experts 的稳定路由策略

本文提出了一种两个阶段的 StableMoE 方法来解决现有的学习路由 Moe 方法中的路由波动问题，并通过在语言模型和多语言机器翻译上的实验验证了该方法的有效性。

Apr, 2022

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

多语言机器翻译中修复低资源语言的 MoE 过拟合问题

通过引入 dropout 和条件化的 MoE 路由和课程学习技术，本研究针对低资源任务下 MoE 模型的严重过拟合问题，提出有效的正则化策略，成功提高了 MoE 模型在低资源任务中的性能，并在大规模多语种机器翻译基准测试中取得了巨大的改进。

Dec, 2022

TA-MoE: 拓扑感知的大规模专家混合训练

本文提出了一种基于拓扑感知路由策略的 Sparsely gated Mixture-of-Expert 深度神经网络模型，可以根据不同的拓扑结构动态调整传输模式，并通过辅助引导学习自适应地适应拓扑结构，实验结果表明该模型在各种硬件和模型配置中比其竞争对手表现表现更好，改进了 1.01x-1.61x, 1.01x-4.77x, 1.25x-1.54x。

Feb, 2023

走向 MoE 部署：缓解专家混合（MoE）推断中的低效率

本文提出了三种 Mixture-of-Experts （MoE）模型的优化技术，分别为动态门控、专家缓存和专家负载均衡，其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用，而专家缓存技术可以通过只在 GPU 内存中缓存热门专家来减少最高可达 1.47 倍的静态内存分配。这些技术能够提高该 MoE 模型的效率并使得其更容易部署到实际应用中。

Mar, 2023

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023