未选择的专家也能贡献:通过自对比释放 MoE 模型的力量
我们提出了一种基于专家选择的异构专家混合模型,通过让专家选择前 k 个标记来分配变量数量的专家,从而提高了训练收敛速度,并在 GLUE 基准测试中取得更高的性能。
Feb, 2022
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
本文提出了分层专家混合(SMoE)模型,该模型具有分层结构,可以为不同令牌分配动态容量,可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色,优于多个最先进的 MoE 模型。
May, 2023
通过转换部分节点间通信为节点内通信的路由策略,我们提出了一种新颖的负载均衡和局部性相结合的路由策略,并在 PanGu-Sigma 模型上进行了改进,实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%,而不影响模型的准确性。
Jan, 2024
多头专家混合模型 (MH-MoE) 使用多头机制将每个令牌拆分为多个子令牌,并并行分配给和处理多样的专家集,然后无缝地重新集成到原始令牌形式,从而增强了训练中的专家激活,深化了上下文理解,减轻过拟合,同时易于实施和与其他 SMoE 模型集成,对英语和多语言模型以及多模态建模任务进行了大量实验,证明了 MH-MoE 的有效性。
Apr, 2024
本文提出了一种两个阶段的 StableMoE 方法来解决现有的学习路由 Moe 方法中的路由波动问题,并通过在语言模型和多语言机器翻译上的实验验证了该方法的有效性。
Apr, 2022
本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
提出了一种全可微分的模型,称为 Mixture of Tokens,它在避免了 Mixture of Experts 模型的困难的同时保留了其优点,通过在专家之前混合来自不同示例的标记,使模型能够从所有标记 - 专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。
Oct, 2023
在该研究中,作者提出了自适应门控混合专家模型,通过采用可变数量的专家处理令牌,实现了稀疏度的保持和训练效率的提高,通过大量实验验证了这种方法在减少训练时间的同时,保持推理质量。
Oct, 2023