通过合并专家在专家混合中学习更广义的专家

May, 2024

通过合并专家在专家混合中学习更广义的专家

Learning More Generalized Experts by Merging Experts in Mixture-of-Experts

Sejik Park

TL;DR通过在混合专家中引入共享层，我们观察到性能下降。为了解决这个问题，我们跟踪每个专家的使用频率并合并两个最常选择的专家，然后使用专家组合来更新最不常选择的专家。结合后续的路由器专家选择学习，我们的算法在多领域任务增量学习中提高了迁移学习并缓解了灾难性遗忘。

Abstract

We observe that incorporating a shared layer in a mixture-of-experts can lead to performance degradation. This leads us to hypothesize that learning shared features poses challenges in →

mixture-of-experts shared layer deep learning transfer learning multi-domain task incremental learning

发现论文，激发创造

深层专家混合模型中的因子表示学习

本文扩展了专家集成模型，提出了深度专家集成模型，该模型利用多组门和专家实现了输入空间的多重化，同时保持了小型化规模，在 MNIST 数据集和语音单音素数据集上的实验结果表明，该模型能够自动发现局部化的位置相关专家和类别相关专家，并有效地使用所有专家组合。

Dec, 2013

通过共同特征学习从异构网络中融合知识

本研究使用预先训练的网络作为示范，旨在学习一种能够整合各种异构结构教师的多才多艺、轻量级的学生模型，而无需获取任何人工注释信息。为此，提出了一种通用的特征学习方案，所有教师的特征都被转换成共同的空间，并且要求学生模型模仿他们的所有特征，以使完整的知识得以融合，并在一系列基准测试中证明所提出的方法的良好性能。

Jun, 2019

大规模弱监督视觉任务的硬混合专家模型

本研究提出了一种简单的 Mixture of Experts 模型，在大规模、多标签的预测任务中表现良好，适用于数据集分布不均、单个 GPU 存储不下的情形，并支持并行训练和统一的特征嵌入空间。该模型的表现表明可以用来训练更大的深度学习模型，拥有更强的处理能力。

Apr, 2017

使用任务级别 Mixture-of-Experts 挖掘和理解跨任务技能

本文介绍了一种针对 NLP 任务的基于任务级别的专家混合模型，该模型使用一组具有灵活性的 Transformer 层和一个路由组件进行任务分配，其表现优于传统的多任务学习模型，同时也发现保留人类任务分类方法对提高模型性能有一定帮助。

May, 2022

TaskExpert：使用记忆的多任务专家混合动态组装多任务表示

多任务学习中，通过使用多个专家网络对特征进行解耦，动态解码任务特定特征，并利用多任务特征内存实现长期建模，从而提高视觉场景理解任务的性能。

Jul, 2023

划分而不忘记：连续学习中的有选择地训练的专家集合

SEED 是一种新颖的方法，通过选择最优的专家，并利用来自任务的数据对该专家进行微调，从而增加专家的多样性和异质性，同时保持该集成方法的高稳定性，在继续学习中通过数据来扩展应用领域，从而在各种场景中实现了无示例集的最新性能。

Jan, 2024

双子融合：模型融合中的模块专长的动态整合

在大型语言模型时代，模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法，但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法，它模块化知识为共享和专属组件，并在输入的基础上动态地合并共享和任务特定的知识，从而缩小了合并模型和微调模型之间的性能差距，并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性，对于判别性任务平均标准化得分提升了 28.34%，在生成性任务上甚至超过了微调模型的上限。

Jun, 2024

连续学习中的专家混合理论

混合专家（MoE）模型通过利用门控网络在多个专家之间稀疏和分配不同任务，从而有效缓解了连续学习中的灾难性遗忘问题。本文通过对过参数化线性回归任务进行理论分析，得出了 MoE 模型相对于单个专家的优势，并提供了 MoE 模型在学习性能中的影响的明确表达式，同时还介绍了在连续任务到达的情况下，在足够的训练轮次后终止门控网络的必要性。最后，通过对合成和真实数据集的实验，将这些洞见扩展到深度神经网络，并在连续学习中的 MoE 的实际算法设计上提供了启示。

Jun, 2024

没有一种表示能够掌握所有知识：训练方法的重叠特征

通过对超参、架构、框架和数据集进行大规模实证研究，我们发现训练方法的差异会导致模型产生不同的泛化行为，从而在子域中表现更好，与其他模型的错误更不相关。这种多样性可以提高集成表现，并且连低准确度的模型也可以用来提高高准确度的模型。此外，我们发现训练方法的差异会使表示捕捉到有重叠但不是超集的特征集，将其结合可以提高下游性能。

Oct, 2021

可解释的数据驱动建模通过专家混合：朝着有效融合灰箱和黑箱模型

我们提出了一种基于 “专家混合” 的综合框架，以解决传统模型和机器学习方法在处理复杂系统时的准确性和解释性之间的平衡问题。通过数据驱动的融合多样化的本地模型，充分利用基于原则的先验知识，我们的解决方案支持专家的独立训练，并结合了机器学习和系统辨识技术，同时支持合作和竞争学习范式。为了增强解释性，我们对专家组合的突变进行了惩罚。实验结果验证了我们的方法的有效性，能够产生与目标现象紧密相似且可解释的模型组合。

Jan, 2024