混合专家解开深度强化学习的参数缩放
以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能,通过多任务训练模拟非稳态性的扩大,进一步增强学习能力,并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。
Jun, 2024
通过分析扩展的变量范围,我们建立了适用于细粒度混合专家模型的扩展规模定律,并利用这些规律为特定计算预算推导出最佳的训练配置,结果显示 Mixture of Experts 模型在规模和训练预算扩大时始终优于密集 Transformer 模型。此外,我们证明在几乎任何计算预算下,将专家的大小设置成与前馈层相似的常见做法并不是最优的。
Feb, 2024
基于混合专家的大型语言模型(如最近的 Mixtral 和 DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量,从而实现图像模型的细粒度特化,并通过定性和定量的证据证明了其与线性层具有相当的性能,同时进一步协助修正 CelebA 属性分类中的人口统计偏差。
Feb, 2024
本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较,并发现除了 fine-tuning 以外,在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同,值得进一步研究。
Dec, 2021
本文提出一种新的混合专家神经网络架构(MoE),并采用三维混合并行算法,结合张量、专家和数据并行,进行内存和通信优化,极大地提高了 MoE 模型的训练效率和精度。
Mar, 2023
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
Sep, 2023
本研究提出了一种基于高斯混合模型的概率混合专家策略,以及一种新的用于解决策略不可区分性问题的梯度估计器,成功应用于通用离线策略和在线策略深度强化学习算法,实验结果表明该方法在包括探索在内的多个方面优于单模态策略、其他混合专家策略和选项框架方法,学习出的元素能够区分,具有更好的学习效率和性能。
Apr, 2021