利用分布专家进行终身语言预训练
通过从现有的大型语言模型构建混合专家(MoE)模型,我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略,最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明,在训练 200B 标记后,LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。
Jun, 2024
LLMs require continual knowledge updates, and this paper introduces LEMoE, an advanced MoE adaptor for lifelong model editing, addressing issues like catastrophic forgetting and inconsistent routing, with experimental results demonstrating its effectiveness.
Jun, 2024
本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力,使模型在最新数据上实现更好的下游性能,并在由于时间而存在训练和评估之间的分布差异时,提高时态的泛化能力。
Oct, 2021
为了更好地帮助开源社区了解基于混合专家的大型语言模型,我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型,参数范围从 650M 到 34B,训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡,突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析,得出了三个重要发现:上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现,混合专家模型中的路由决策主要基于标记 ID,与上下文相关性较小。标记对专家的分配在预训练阶段早期确定,并且在很大程度上保持不变。这种不完美的路由可能导致性能下降,尤其是在多轮对话等顺序任务中,较后出现的标记更有可能被丢弃。最后,我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展,我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。
Jan, 2024
通过介绍新颖且可扩展的框架 LaRA-MoE,本研究通过大型语言模型在多模态学习方面的综合研究和实验,展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性(提升约 20%),以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。
Nov, 2023
基于混合专家的大型语言模型(如最近的 Mixtral 和 DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
我们提出了一种名为 Self-MoE 的方法,将一个整体的 LLM 转化为由自身专业化的专家模块组成的组合式模块系统 MiXSE。我们的方法利用自我专业化,使用自生成的合成数据构建专家模块,每个模块都配备了共享的基础 LLM,并融入了自我优化的路由。这样可以动态和能力特定地处理各种目标任务,提高整体能力,而无需大量人工标记的数据和额外的参数。我们的实证结果显示,专门化的 LLMs 在非专门化任务上可能存在性能的潜在权衡。另一方面,我们的 Self-MoE 在知识、推理、数学和编码等不同基准测试中,表现出明显的改进。它还在设计上通过语义专家和路由提供更好的灵活性和可解释性。我们的发现突出了模块化和自我改进在实现高效、可扩展和适应性强的系统中的关键作用。
Jun, 2024