强化学习设置中的专家混合模型

Jun, 2024

Mixture of Experts in a Mixture of RL settings

Timon Willi, Johan Obando-Ceron, Jakob Foerster, Karolina Dziugaite, Pablo Samuel Castro

TL;DR以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能，通过多任务训练模拟非稳态性的扩大，进一步增强学习能力，并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。

Abstract

mixtures of experts (MoEs) have gained prominence in (self-)supervised learning due to their enhanced inference efficiency, adaptability to distributed training, and modularity. Previous research has illustrated that MoEs can significantly boost →

mixtures of experts deep reinforcement learning non-stationarity multi-task training actor-critic-based drl networks

发现论文，激发创造

探索深度学习中的专家混合模型

本文研究了 Mixture-of-Experts（MoE）层如何在深度学习中提高神经网络的性能以及为什么混合模型不会崩溃。通过研究困难的分类问题，我们证明了 MoE 模型的有效性，理论上表明路由器可以学习聚类中心特征，帮助将复杂的问题分解为更简单的线性分类子问题，而专家网络可以解决这些子问题，该文是最早正式理解深度学习中 MoE 层机制的结果之一。

Aug, 2022

高效深度强化学习的概率混合专家模型

本研究提出了一种基于高斯混合模型的概率混合专家策略，以及一种新的用于解决策略不可区分性问题的梯度估计器，成功应用于通用离线策略和在线策略深度强化学习算法，实验结果表明该方法在包括探索在内的多个方面优于单模态策略、其他混合专家策略和选项框架方法，学习出的元素能够区分，具有更好的学习效率和性能。

Apr, 2021

混合专家解开深度强化学习的参数缩放

本文研究了监督学习、缩放定律、强化学习、专家混合和参数可扩展性，并通过实证提供了发展强化学习缩放定律的有力证据。

Feb, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

基于专家混合的高效大规模语言建模

本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较，并发现除了 fine-tuning 以外，在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同，值得进一步研究。

Dec, 2021

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

连续学习中的专家混合理论

混合专家（MoE）模型通过利用门控网络在多个专家之间稀疏和分配不同任务，从而有效缓解了连续学习中的灾难性遗忘问题。本文通过对过参数化线性回归任务进行理论分析，得出了 MoE 模型相对于单个专家的优势，并提供了 MoE 模型在学习性能中的影响的明确表达式，同时还介绍了在连续任务到达的情况下，在足够的训练轮次后终止门控网络的必要性。最后，通过对合成和真实数据集的实验，将这些洞见扩展到深度神经网络，并在连续学习中的 MoE 的实际算法设计上提供了启示。

Jun, 2024