Apr, 2023

重新审视单门限专家混合模型

TL;DR本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。