Sep, 2024

GRIN:梯度信息混合专家模型

TL;DR本研究解决了混合专家模型(MoE)在稀疏计算中面临的传统训练挑战,提出了GRIN(梯度信息混合专家训练),通过稀疏梯度估计改进专家路由。结果表明,GRIN显著提升了MoE的有效性,其在语言建模任务中的性能超过了同数据集下的7B稠密模型,展现出极大的应用潜力。