GW-MoE:应用全局工作空间理论解决 MoE 路由器中的不确定性
通过转换部分节点间通信为节点内通信的路由策略,我们提出了一种新颖的负载均衡和局部性相结合的路由策略,并在 PanGu-Sigma 模型上进行了改进,实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%,而不影响模型的准确性。
Jan, 2024
LocMoE + 是低成本的改进版本,通过量化和定义专家和令牌之间的关联性、实施全局级自适应路由策略以重新排列令牌以及重新估计专家容量的下限来解决 Mixture-of-Experts 架构中存在的问题,验证实验结果显示,每个专家处理的令牌数量可以减少超过 60%,在与通信优化相结合的情况下,训练效率平均提高了 5.4% 至 46.6%,在微调后,LocMoE + 在 GDAD、C-Eval 和 TeleQnA 数据集中的性能提高了 9.7% 至 14.1%。
May, 2024
本文提出了一种两个阶段的 StableMoE 方法来解决现有的学习路由 Moe 方法中的路由波动问题,并通过在语言模型和多语言机器翻译上的实验验证了该方法的有效性。
Apr, 2022
该研究文章通过对计算机视觉任务中的 MoEs 中路由器的全面研究,提出了一个统一的 MoE 公式,该公式涵盖了使用两个参数化路由张量的不同 MoEs(包括基于二进制或硬分配的稀疏 MoE 和基于加权组合的软分配的稀疏 MoE),并揭示了路由器在视觉 MoE 模型中发挥至关重要作用的新见解。
Jan, 2024
我们提出了一种基于专家选择的异构专家混合模型,通过让专家选择前 k 个标记来分配变量数量的专家,从而提高了训练收敛速度,并在 GLUE 基准测试中取得更高的性能。
Feb, 2022
本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
本文提出一种基于 MoE 的语音识别模型 SpeechMoE,引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明,该模型在计算成本可比的情况下,相对于传统的静态网络,可以提供 7.0%-23.0%的相对 CER 改进。
May, 2021
在这篇论文中,我们探索了稀疏专家混合模型(Sparse MoE)在各种关键因素下的泛化误差,并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。
Mar, 2024
本文介绍了一种新颖的动态专家选择框架用于混合专家模型 (Mixture of Experts, MoE),旨在通过根据输入难度调整激活的专家数量来提高计算效率和模型性能。我们的方法动态选择专家,而不是像传统 MoE 方法那样依赖固定的前 K 个路由,无论输入的复杂性如何,都会激活预定数量的专家。通过广泛的评估,我们的动态路由方法在各种基准测试中显示出明显的改进,相对于常规的前 2 个路由平均改进了 0.7%,激活参数不到 90%。进一步的分析显示,我们的模型向需要复杂推理技能的任务派遣更多的专家,如 BBH,验证了它根据输入的复杂性动态分配计算资源的能力。我们的发现还凸显了变压器模型不同层之间所需专家数量的差异,为设计异构 MoE 框架提供了洞察。代码和模型可在给定的 https URL 提供。
Mar, 2024
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024