Jun, 2024

GW-MoE:应用全局工作空间理论解决 MoE 路由器中的不确定性

TL;DR通过使用全局工作空间理论,我们提出了 GW-MoE,一个新的微调方法,以解决 Mixture-of-Experts(MoE)模型中的不确定路由结果问题,并在不同任务和模型规模下验证其有效性。