AAAIJan, 2024

MoDE: 一种基于专家互相融合的混合模型

TL;DR我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表格、自然语言处理和计算机视觉数据集,证明了 MoDE 的有效性、普适性和鲁棒性。此外,我们通过创新地构建 “专家探针” 进行了平行研究,实验性地证明了为什么 MoDE 起作用:适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能,从而提升 MoE 的整体性能。