Feb, 2024

HyperMoE: 通过专家之间的迁移改进更好的专家混合

TL;DRHyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。