MoDE: 一种基于专家互相融合的混合模型

AAAIJan, 2024

MoDE: 一种基于专家互相融合的混合模型

MoDE: A Mixture-of-Experts Model with Mutual Distillation among the Experts

Zhitian Xie, Yinger Zhang, Chenyi Zhuang, Qitao Shi, Zhining Liu...

TL;DR我们提出了一种叫作 Mixture-of-Distilled-Expert（MoDE）的方法，通过在专家之间应用适度的相互蒸馏，使每个专家能够掌握其他专家学习到的更多特征，从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验，包括表格、自然语言处理和计算机视觉数据集，证明了 MoDE 的有效性、普适性和鲁棒性。此外，我们通过创新地构建 “专家探针” 进行了平行研究，实验性地证明了为什么 MoDE 起作用：适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能，从而提升 MoE 的整体性能。

Abstract

The application of mixture-of-experts (MoE) is gaining popularity due to its ability to improve model's performance. In an MoE structure, the gate layer plays a significant role in distinguishing and routing inpu

mixture-of-experts gate layer mixture-of-distilled-expert mutual distillation expert probing

发现论文，激发创造

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

超越蒸馏：面向任务的专家混合方法实现高效推断

该论文研究了不同粒度（令牌、句子、任务）MoE 模型中的路由策略，以绕过蒸馏。通过任务级路由（task-MoE）在 WMT 和 Web 规模数据集上进行的实验表明，我们能够从大型稀疏模型中提取更小、可部署的子网络。对于 30 种语言对，我们的 32 个专家的 task-MOE （533M 个参数）在 WMT 上的表现平均比表现最佳的令牌级 MoE 模型（token-MoE）高 1.0 BLEU。而将一个 token-MoE 蒸馏成较小的密集模型只能保留 32% 的 BLEU 收益，但通过设计，我们的子网络 task-MoE 可以保留所有收益，并且和蒸馏后的 student 模型有相同的推理成本。最后，当扩展到 200 种语言对时，我们的 128 个专家的 task-MoE（13B 个参数）表现与令牌级模型相近，并且提高了推理吞吐量 2.6 倍。

Sep, 2021

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

LocMoE：一种用于大型语言模型训练的低开销 MoE

通过转换部分节点间通信为节点内通信的路由策略，我们提出了一种新颖的负载均衡和局部性相结合的路由策略，并在 PanGu-Sigma 模型上进行了改进，实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%，而不影响模型的准确性。

Jan, 2024

探索深度学习中的专家混合模型

本文研究了 Mixture-of-Experts（MoE）层如何在深度学习中提高神经网络的性能以及为什么混合模型不会崩溃。通过研究困难的分类问题，我们证明了 MoE 模型的有效性，理论上表明路由器可以学习聚类中心特征，帮助将复杂的问题分解为更简单的线性分类子问题，而专家网络可以解决这些子问题，该文是最早正式理解深度学习中 MoE 层机制的结果之一。

Aug, 2022

基于人类专业知识的可解释模型：优先采用专家混合模式

提出了一种名为 Preferential MoE 的人类 - 机器学习混合专家模型，它可以根据决策中有无人类专家经验的必要性，在需要时对数据分类器进行增强。该模型展示了可解释的门控函数，提供何时遵循或避免人类规则的信息。提出了解决具有凸次问题的耦合多目标问题。提出近似算法并研究其性能和收敛性。最后，我们演示了 Preferential MoE 在治疗人类免疫缺陷病毒（HIV）和管理重度抑郁症（MDD）的两个临床应用中的实用性。

Jan, 2021

未选择的专家也能贡献：通过自对比释放 MoE 模型的力量

基于 Mixture-of-Experts 和 SCMoE 的推理能力在不同领域中得到了提升。

May, 2024

推动专家混合模型的极限：非常参数高效的指令调优 MoE

我们的研究展示了混合专家架构的多样性，即使在严格的参数约束下，也能提供稳健的性能，并通过唯一地将 MoE 架构与轻量级专家相结合，提出了极其高效的 MoE 架构，推动了 MoE 的极限。

Sep, 2023