Jul, 2022

MoEC: 专家混合聚类

TL;DR本研究提出了 Mixture of Expert Clusters 模型,通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识,并提出了一种专家集群结构的集群级别专家丢失策略。实验证明,该模型可以提高机器翻译和自然语言理解任务的性能,并在有限数据条件下扩展专家的性能上限,对缓解过度拟合和稀疏数据分配问题起到积极作用。