Aug, 2024

BAM!就是这样:混合专家的简单高效参数重用

TL;DR 本研究解决了混合专家(MoE)框架在大规模训练中的高成本问题,通过提出BAM方法,充分利用稠密模型的所有参数,不仅初始化MoE层的前馈网络,还充分利用专家的注意力参数,从而提高了模型性能和推理效率。实验表明,BAM在困惑度和下游任务表现上均优于基线模型,展现出显著的潜在影响。