Aug, 2024

HMoE:用于语言建模的异构专家混合模型

TL;DR本研究针对传统同质专家模型在处理复杂输入数据时的局限性,提出了一种新颖的异构专家混合模型HMoE,使专家具备不同规模和能力,从而提高了对不同复杂度标记的处理效率。此外,提出的新训练目标促进了小规模专家的频繁激活,从而提升了计算效率和参数利用率。实验结果表明,HMoE在多项预训练评估基准测试中表现优于传统模型,且损失更低、激活参数更少。