Uni-MoE：使用专家混合方法扩展统一多模态 LLMs

May, 2024

Uni-MoE：使用专家混合方法扩展统一多模态 LLMs

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts

Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong...

TL;DR开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构，具有一致的多模态表示，通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理，进一步减少性能偏差，并提高多专家的协作和泛化能力。

Abstract

Recent advancements in multimodal large language models (MLLMs) underscore the significance of scalable models and data to boost performance, yet this often incurs substantial computational costs. Although the Mixture of Experts (MoE) architecture has been employed to efficiently scale

multimodal large language models mixture of experts architecture uni-moe modality-specific encoders multi-expert collaboration

发现论文，激发创造

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

CuMo：多模态 LLM 与协同升级混合专家的扩展

CuMo 是一种在多模态大型语言模型上通过使用混合专家模块来提高模型性能的方法，其在可扩展性和推理成本方面的优势使其在各种可视问答和视觉指令遵循基准上超越了现有的多模态语言模型。

May, 2024

Octavius: 通过 MoE 减少 MLLMs 的任务干扰

通过介绍新颖且可扩展的框架 LaRA-MoE，本研究通过大型语言模型在多模态学习方面的综合研究和实验，展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性（提升约 20%），以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。

Nov, 2023

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024

Omni-SMoLA：用软混合低秩专家提升通用多模态模型

使用 Omni-SMoLA 结构及 Soft MoE 方法，在大规模多模态模型上实现了性能提升，广泛应用于生成式视觉与语言任务中，达到最新的至顶性能水平。

Dec, 2023

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024

面向推理最优的混合专家大语言模型

基于混合专家的大型语言模型（如最近的 Mixtral 和 DeepSeek-MoE）在规模大小上显示出巨大潜力，其训练成本不会像密集变换器那样呈二次增长。然而，我们发现增加专家的数量会导致递减收益，因此我们建议将推理效率作为模型缩放定律的指标之一，以在相同性能下提供最好的解决方案。

Apr, 2024

通过统一框架解构混合专家的压缩

大规模语言模型的扩展已经在不同领域取得了革命性的性能，但模型规模的持续增长为实际应用带来了重大挑战。本文通过动态选择和激活仅一部分专家的混合专家（MoE）方法，显著减少计算成本同时保持高性能。我们提出了一个创新的统一框架来压缩 MoE，该框架不仅无缝集成了主流压缩方法，还有助于系统地理解 MoE 压缩。在此框架中，我们从两个角度进行了压缩：专家瘦身，压缩单个专家；专家修剪，删除结构化模块。在这些基础上，我们介绍了一些激进的专家修剪技术，并提出了全面的指南，以指导从业者有效地进行 MoE 压缩。广泛的实验结果验证了我们框架下的压缩方法和指南的有效性，实现了 6.05 倍的加速和仅 20.0GB 的内存使用，同时保持了对 Mixtral-8x7B 超过 92% 的性能。

Jun, 2024

LLaMA-MoE：从 LLaMA 进行连续预训练构建混合专家系统

通过从现有的大型语言模型构建混合专家（MoE）模型，我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略，最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明，在训练 200B 标记后，LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。

Jun, 2024

多线性专家混合模型：通过分解实现可扩展的专家专业化

通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量，从而实现图像模型的细粒度特化，并通过定性和定量的证据证明了其与线性层具有相当的性能，同时进一步协助修正 CelebA 属性分类中的人口统计偏差。

Feb, 2024