动态数据混合最大化专家混合模型的指令调优
本文介绍了一种新颖的动态专家选择框架用于混合专家模型 (Mixture of Experts, MoE),旨在通过根据输入难度调整激活的专家数量来提高计算效率和模型性能。我们的方法动态选择专家,而不是像传统 MoE 方法那样依赖固定的前 K 个路由,无论输入的复杂性如何,都会激活预定数量的专家。通过广泛的评估,我们的动态路由方法在各种基准测试中显示出明显的改进,相对于常规的前 2 个路由平均改进了 0.7%,激活参数不到 90%。进一步的分析显示,我们的模型向需要复杂推理技能的任务派遣更多的专家,如 BBH,验证了它根据输入的复杂性动态分配计算资源的能力。我们的发现还凸显了变压器模型不同层之间所需专家数量的差异,为设计异构 MoE 框架提供了洞察。代码和模型可在给定的 https URL 提供。
Mar, 2024
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
我们设计了一种新方法,将任务信息与 Mixture-of-experts 模型结合,通过共享的动态任务适配器在不同粒度级别上将任务信息融入模型中。实验证明,相比密集和经典的 Mixture-of-experts 模型,在多任务多语言机器翻译上,我们的方法具有优势。通过任务特定的适配器,我们的模型能够高效地泛化到新任务中。
Aug, 2023
该论文研究了不同粒度(令牌、句子、任务)MoE 模型中的路由策略,以绕过蒸馏。通过任务级路由(task-MoE)在 WMT 和 Web 规模数据集上进行的实验表明,我们能够从大型稀疏模型中提取更小、可部署的子网络。对于 30 种语言对,我们的 32 个专家的 task-MOE (533M 个参数)在 WMT 上的表现平均比表现最佳的令牌级 MoE 模型(token-MoE)高 1.0 BLEU。而将一个 token-MoE 蒸馏成较小的密集模型只能保留 32% 的 BLEU 收益,但通过设计,我们的子网络 task-MoE 可以保留所有收益,并且和蒸馏后的 student 模型有相同的推理成本。最后,当扩展到 200 种语言对时,我们的 128 个专家的 task-MoE(13B 个参数)表现与令牌级模型相近,并且提高了推理吞吐量 2.6 倍。
Sep, 2021
提出了一种全可微分的模型,称为 Mixture of Tokens,它在避免了 Mixture of Experts 模型的困难的同时保留了其优点,通过在专家之前混合来自不同示例的标记,使模型能够从所有标记 - 专家组合中学习。此方法与大型语言模型的训练和推理完全兼容。
Oct, 2023
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表格、自然语言处理和计算机视觉数据集,证明了 MoDE 的有效性、普适性和鲁棒性。此外,我们通过创新地构建 “专家探针” 进行了平行研究,实验性地证明了为什么 MoDE 起作用:适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能,从而提升 MoE 的整体性能。
Jan, 2024
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
Sep, 2023
提出了一种名为 MMoEEx 的多门分层专家模型用于解决多任务学习(MTL)中的挑战,旨在优化单个模型以同时预测具有不同特征的多个任务,我们采用了一种方法来引入专家间的多样性,以创造更适合高度不平衡和异构 MTL 学习的表示,并采用两步优化方法在梯度水平上平衡任务。
Jun, 2021