本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
本文研究了 Mixture-of-Experts(MoE)层如何在深度学习中提高神经网络的性能以及为什么混合模型不会崩溃。通过研究困难的分类问题,我们证明了 MoE 模型的有效性,理论上表明路由器可以学习聚类中心特征,帮助将复杂的问题分解为更简单的线性分类子问题,而专家网络可以解决这些子问题,该文是最早正式理解深度学习中 MoE 层机制的结果之一。
Aug, 2022
在该研究中,作者提出了自适应门控混合专家模型,通过采用可变数量的专家处理令牌,实现了稀疏度的保持和训练效率的提高,通过大量实验验证了这种方法在减少训练时间的同时,保持推理质量。
Oct, 2023
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
Sep, 2023
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表格、自然语言处理和计算机视觉数据集,证明了 MoDE 的有效性、普适性和鲁棒性。此外,我们通过创新地构建 “专家探针” 进行了平行研究,实验性地证明了为什么 MoDE 起作用:适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能,从而提升 MoE 的整体性能。
Jan, 2024
本研究提出了 Mixture of Expert Clusters 模型,通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识,并提出了一种专家集群结构的集群级别专家丢失策略。实验证明,该模型可以提高机器翻译和自然语言理解任务的性能,并在有限数据条件下扩展专家的性能上限,对缓解过度拟合和稀疏数据分配问题起到积极作用。
Jul, 2022
通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量,从而实现图像模型的细粒度特化,并通过定性和定量的证据证明了其与线性层具有相当的性能,同时进一步协助修正 CelebA 属性分类中的人口统计偏差。
Feb, 2024
基于 transformers 的大型语言模型 (LLMs) 近年取得显著进展,其成功驱动因素是其模型规模的扩大。然而,LLMs 的计算和内存需求带来了前所未有的挑战,此研究提出 Pre-gated MoE 系统,通过算法与系统的共同设计,解决传统 MoE 体系的计算和内存问题,提高性能,降低 GPU 内存消耗,并保持与传统模型的质量水平,以高性能的方式使用单个 GPU 部署大规模 LLMs。
Aug, 2023
本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法,通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果,而只需在计算效率方面付出少量代价。
Jan, 2017