BriefGPT.xyz
Ask
alpha
关键词
gate layer
搜索结果 - 1
AAAI
MoDE: 一种基于专家互相融合的混合模型
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表
→
PDF
5 months ago
Prev
Next