Lory: 全可微的自回归语言模型预训练中的专家混合

May, 2024

Lory: 全可微的自回归语言模型预训练中的专家混合

Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training

Zexuan Zhong, Mengzhou Xia, Danqi Chen, Mike Lewis

TL;DRLory 是一种全可微的混合专家模型架构，通过引入因果段路由策略和基于相似性的数据分批方法，实现了高效的专家融合运算和专家特化，该方法在自回归语言模型的预训练中取得了显著性能提升，在困惑度和多种下游任务上分别达到了 + 13.9% 和 + 1.5%-11.1% 的结果，同时证明了 Lory 的专家能够捕捉领域级别的特化。

Abstract

Mixture-of-experts (MoE) models facilitate efficient scaling; however, training the router network introduces the challenge of optimizing a non-differentiable, discrete objective. Recently, a fully-differentiable MoE architecture, SMEAR, was proposed (Muqeeth et al., 2023), which softly merges experts in the parameter space; nevertheless, its effectiveness w

mixture-of-experts models smear architecture lory approach autoregressive language model pre-training expert specialization

发现论文，激发创造

SpeechMoE：使用动态路由混合专家扩展大规模声学模型

本文提出一种基于 MoE 的语音识别模型 SpeechMoE，引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性，并使用了新的路由器架构，可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明，该模型在计算成本可比的情况下，相对于传统的静态网络，可以提供 7.0％-23.0％的相对 CER 改进。

May, 2021

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

LocMoE+：增强型路由器具有令牌特征感知的高效 LLM 预训练

LocMoE + 是低成本的改进版本，通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题，验证实验结果显示，每个专家处理的令牌数量可以减少超过 60%，在与通信优化相结合的情况下，训练效率平均提高了 5.4% 至 46.6%，在微调后，LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。

May, 2024

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024

LLaMA-MoE：从 LLaMA 进行连续预训练构建混合专家系统

通过从现有的大型语言模型构建混合专家（MoE）模型，我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略，最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明，在训练 200B 标记后，LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。

Jun, 2024

Mixture of Experts 的稳定路由策略

本文提出了一种两个阶段的 StableMoE 方法来解决现有的学习路由 Moe 方法中的路由波动问题，并通过在语言模型和多语言机器翻译上的实验验证了该方法的有效性。

Apr, 2022

DMoERM：混合专家模型的有效奖励建模方法

通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想，我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型，该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能，并超越了先进的生成方法。

Mar, 2024

MixLoRA：基于 LoRA 的专家混合大语言模型微调增强

提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法，名为 MixLoRA，能够在消费级 GPU 上实现多个专家模型的并行微调，减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。

Apr, 2024