BriefGPT.xyz
大模型
Ask
alpha
关键词
gw-moe
搜索结果 - 1
GW-MoE:应用全局工作空间理论解决 MoE 路由器中的不确定性
通过使用全局工作空间理论,我们提出了 GW-MoE,一个新的微调方法,以解决 Mixture-of-Experts(MoE)模型中的不确定路由结果问题,并在不同任务和模型规模下验证其有效性。
PDF
16 days ago
Prev
Next