将大型语言模型灵活有效地混合成领域专家混合体
提出了一种全可微分的模型,称为Mixture of Tokens,它在避免了Mixture of Experts模型的困难的同时保留了其优点,通过在专家之前混合来自不同示例的标记,使模型能够从所有标记-专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。
Oct, 2023
通过引入插拔式专家级稀疏化技术,本文主要针对MoE LLMs的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
基于混合专家的大型语言模型(如最近的Mixtral和DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
通过从现有的大型语言模型构建混合专家(MoE)模型,我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的MoE的方法。我们综合探索了不同的专家构建方法和各种数据采样策略,最终生成的LLaMA-MoE模型能够保持语言能力并将输入标记路由到具体的专家。经验证明,在训练200B标记后,LLaMA-MoE-3.5B模型在含有相似激活参数的密集模型上表现出显著优势。
Jun, 2024
大型语言模型(LLMs)通过其巨大的模型规模、丰富多样的数据集和庞大的计算能力的训练,获得了在自然语言处理、计算机视觉等领域的前所未有的进展。混合专家(MoE)作为一种有效的方法,以最小计算开销显著扩展模型容量,受到学术界和行业的广泛关注。本调查旨在弥补对MoE文献缺乏系统全面综述的空白,为研究人员深入探讨MoE的复杂性提供重要资源。我们首先简要介绍MoE层的结构,然后提出了新的MoE分类法。接下来,我们概述了各种MoE模型的核心设计,包括算法和系统方面,以及可用的开源实现、超参数配置和实证评估的集合。此外,我们还勾画了MoE在实践中的多方面应用,并概述了一些未来研究的潜在方向。为促进MoE研究中最新进展的持续更新和共享,我们创建了一个资源存储库,可访问此https网址。
Jun, 2024
通过将模型参数增加但在执行任务时仅激活其中一部分,混合专家(MoE)架构明显提高了大型语言模型(LLMs)的性能而不增加推理成本。然而,由于专家数量增加而导致的内存消耗对于这些模型在实际应用中的部署构成了挑战。我们的经验研究发现,一些专家在预训练期间编码了冗余的知识。因此,我们提出了一种将相似专家分组并修剪以提高模型参数效率的方法。我们通过修剪Mixtral-8x7B和Mixtral-8x22B两个最先进的MoE模型来验证我们方法的有效性。评估结果显示,我们的方法在各种自然语言任务上优于其他模型修剪方法。为了便于未来研究,我们将发布我们的代码和修剪过的MoE模型。
Jul, 2024
本研究针对混合专家(MoE)框架在大规模训练中的高成本问题,提出了一种新方法BAM(Branch-Attend-Mix)。该方法不仅利用专家的前馈网络(FFN)初始化MoE层,还充分利用关注参数,提高了模型的性能和推理效率。实验结果表明,BAM在相同计算和数据约束下,超越了现有基线模型。
Aug, 2024
本研究解决了混合专家(MoE)框架在大规模训练中的高成本问题,通过提出BAM方法,充分利用稠密模型的所有参数,不仅初始化MoE层的前馈网络,还充分利用专家的注意力参数,从而提高了模型性能和推理效率。实验表明,BAM在困惑度和下游任务表现上均优于基线模型,展现出显著的潜在影响。
Aug, 2024
本研究针对传统同质专家模型在处理复杂输入数据时的局限性,提出了一种新颖的异构专家混合模型HMoE,使专家具备不同规模和能力,从而提高了对不同复杂度标记的处理效率。此外,提出的新训练目标促进了小规模专家的频繁激活,从而提升了计算效率和参数利用率。实验结果表明,HMoE在多项预训练评估基准测试中表现优于传统模型,且损失更低、激活参数更少。
Aug, 2024
本研究解决了将训练模型整合为低成本领域专家混合(MOE)的问题。通过提供一个工具包,研究者能够灵活地使用现有模型或适配器创建MOE,并进行广泛测试以指导架构定义。其显著发现是该工具包能够大幅降低开发成本,提高模型组合的灵活性。
Aug, 2024