MEMoE:采用专家混合适配器增强模型编辑
LLMs require continual knowledge updates, and this paper introduces LEMoE, an advanced MoE adaptor for lifelong model editing, addressing issues like catastrophic forgetting and inconsistent routing, with experimental results demonstrating its effectiveness.
Jun, 2024
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
通过转换部分节点间通信为节点内通信的路由策略,我们提出了一种新颖的负载均衡和局部性相结合的路由策略,并在 PanGu-Sigma 模型上进行了改进,实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%,而不影响模型的准确性。
Jan, 2024
为了更好地帮助开源社区了解基于混合专家的大型语言模型,我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型,参数范围从 650M 到 34B,训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡,突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析,得出了三个重要发现:上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现,混合专家模型中的路由决策主要基于标记 ID,与上下文相关性较小。标记对专家的分配在预训练阶段早期确定,并且在很大程度上保持不变。这种不完美的路由可能导致性能下降,尤其是在多轮对话等顺序任务中,较后出现的标记更有可能被丢弃。最后,我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展,我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。
Jan, 2024
通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构,具有一致的多模态表示,通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理,进一步减少性能偏差,并提高多专家的协作和泛化能力。
May, 2024
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表格、自然语言处理和计算机视觉数据集,证明了 MoDE 的有效性、普适性和鲁棒性。此外,我们通过创新地构建 “专家探针” 进行了平行研究,实验性地证明了为什么 MoDE 起作用:适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能,从而提升 MoE 的整体性能。
Jan, 2024
我们提出了一种名为 Self-MoE 的方法,将一个整体的 LLM 转化为由自身专业化的专家模块组成的组合式模块系统 MiXSE。我们的方法利用自我专业化,使用自生成的合成数据构建专家模块,每个模块都配备了共享的基础 LLM,并融入了自我优化的路由。这样可以动态和能力特定地处理各种目标任务,提高整体能力,而无需大量人工标记的数据和额外的参数。我们的实证结果显示,专门化的 LLMs 在非专门化任务上可能存在性能的潜在权衡。另一方面,我们的 Self-MoE 在知识、推理、数学和编码等不同基准测试中,表现出明显的改进。它还在设计上通过语义专家和路由提供更好的灵活性和可解释性。我们的发现突出了模块化和自我改进在实现高效、可扩展和适应性强的系统中的关键作用。
Jun, 2024
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任务情境,为优化特征分配提供了隐含指导。此外,引入了先进的《Rank-1 专家公式》来管理一系列直觉,在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明,《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15%的整体准确度提升。
Apr, 2024