Feb, 2024

CompeteSMoE - 通过竞争有效训练稀疏专家混合模型

TL;DR通过引入竞争机制来解决稀疏专家混合(SMoE)的表示坍塌问题,我们提出了CompeteSMoE算法,通过部署一个简单的路由器来预测竞争结果,从而在保持低计算开销的同时实现了强大的性能提升。我们在两个变压器架构和各种任务上进行了广泛的实证评估,表明CompeteSMoE相对于最先进的SMoE策略而言具有高效性、鲁棒性和可扩展性。