连续学习中的专家混合理论

Jun, 2024

Theory on Mixture-of-Experts in Continual Learning

Hongbo Li, Sen Lin, Lingjie Duan, Yingbin Liang, Ness B. Shroff

TL;DR混合专家（MoE）模型通过利用门控网络在多个专家之间稀疏和分配不同任务，从而有效缓解了连续学习中的灾难性遗忘问题。本文通过对过参数化线性回归任务进行理论分析，得出了 MoE 模型相对于单个专家的优势，并提供了 MoE 模型在学习性能中的影响的明确表达式，同时还介绍了在连续任务到达的情况下，在足够的训练轮次后终止门控网络的必要性。最后，通过对合成和真实数据集的实验，将这些洞见扩展到深度神经网络，并在连续学习中的 MoE 的实际算法设计上提供了启示。

Abstract

continual learning (CL) has garnered significant attention because of its ability to adapt to new tasks that arrive over time. catastrophic forgetting (of old tasks) has been identified as a major issue in CL, as

continual learning catastrophic forgetting mixture-of-experts gating network linear regression tasks

发现论文，激发创造

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

MoEC: 专家混合聚类

本研究提出了 Mixture of Expert Clusters 模型，通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识，并提出了一种专家集群结构的集群级别专家丢失策略。实验证明，该模型可以提高机器翻译和自然语言理解任务的性能，并在有限数据条件下扩展专家的性能上限，对缓解过度拟合和稀疏数据分配问题起到积极作用。

Jul, 2022

低维混合专家模型在医学图像分割中的应用

在医学图像分割领域的持续学习任务中，我们提出了一种使用数据特定的专家组（MoE）结构解决新任务或类别的问题的网络，以确保网络参数对先前任务的影响最小化，并通过引入低秩策略显著降低引入附加结构所带来的内存开销。在多个数据集上进行的广泛实验证明了我们的模型优于其他所有方法。

Jun, 2024

探索深度学习中的专家混合模型

本文研究了 Mixture-of-Experts（MoE）层如何在深度学习中提高神经网络的性能以及为什么混合模型不会崩溃。通过研究困难的分类问题，我们证明了 MoE 模型的有效性，理论上表明路由器可以学习聚类中心特征，帮助将复杂的问题分解为更简单的线性分类子问题，而专家网络可以解决这些子问题，该文是最早正式理解深度学习中 MoE 层机制的结果之一。

Aug, 2022

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

强化学习设置中的专家混合模型

以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能，通过多任务训练模拟非稳态性的扩大，进一步增强学习能力，并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。

Jun, 2024

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

LLaMA-MoE：从 LLaMA 进行连续预训练构建混合专家系统

通过从现有的大型语言模型构建混合专家（MoE）模型，我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略，最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明，在训练 200B 标记后，LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。

Jun, 2024

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024