强化学习设置中的专家混合模型
本文研究了 Mixture-of-Experts(MoE)层如何在深度学习中提高神经网络的性能以及为什么混合模型不会崩溃。通过研究困难的分类问题,我们证明了 MoE 模型的有效性,理论上表明路由器可以学习聚类中心特征,帮助将复杂的问题分解为更简单的线性分类子问题,而专家网络可以解决这些子问题,该文是最早正式理解深度学习中 MoE 层机制的结果之一。
Aug, 2022
本研究提出了一种基于高斯混合模型的概率混合专家策略,以及一种新的用于解决策略不可区分性问题的梯度估计器,成功应用于通用离线策略和在线策略深度强化学习算法,实验结果表明该方法在包括探索在内的多个方面优于单模态策略、其他混合专家策略和选项框架方法,学习出的元素能够区分,具有更好的学习效率和性能。
Apr, 2021
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
Feb, 2023
本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较,并发现除了 fine-tuning 以外,在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同,值得进一步研究。
Dec, 2021
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
混合专家(MoE)模型通过利用门控网络在多个专家之间稀疏和分配不同任务,从而有效缓解了连续学习中的灾难性遗忘问题。本文通过对过参数化线性回归任务进行理论分析,得出了 MoE 模型相对于单个专家的优势,并提供了 MoE 模型在学习性能中的影响的明确表达式,同时还介绍了在连续任务到达的情况下,在足够的训练轮次后终止门控网络的必要性。最后,通过对合成和真实数据集的实验,将这些洞见扩展到深度神经网络,并在连续学习中的 MoE 的实际算法设计上提供了启示。
Jun, 2024