Apr, 2024

多头专家混合

TL;DR多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌,并并行分配给和处理多样的专家集,然后无缝地重新集成到原始令牌形式,从而增强了训练中的专家激活,深化了上下文理解,减轻过拟合,同时易于实施和与其他 SMoE 模型集成,对英语和多语言模型以及多模态建模任务进行了大量实验,证明了 MH-MoE 的有效性。