CuMo:多模态 LLM 与协同升级混合专家的扩展
开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构,具有一致的多模态表示,通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理,进一步减少性能偏差,并提高多专家的协作和泛化能力。
May, 2024
本研究提出了统一的视觉 - 语言预训练模型 (VLMo),通过模块化的 Transformer 网络共同学习双编码器和融合编码器。实验结果表明,VLMo 在各种视觉 - 语言任务中取得了最先进的结果。
Nov, 2021
通过从现有的大型语言模型构建混合专家(MoE)模型,我们提出了一种从头开始训练在大规模环境下仍面临数据需求和不稳定性问题的 MoE 的方法。我们综合探索了不同的专家构建方法和各种数据采样策略,最终生成的 LLaMA-MoE 模型能够保持语言能力并将输入标记路由到具体的专家。经验证明,在训练 200B 标记后,LLaMA-MoE-3.5B 模型在含有相似激活参数的密集模型上表现出显著优势。
Jun, 2024
本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力,通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了宝贵的洞见,并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。
Mar, 2023
基于混合专家的大型语言模型(如最近的 Mixtral 和 DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
大规模语言模型的扩展已经在不同领域取得了革命性的性能,但模型规模的持续增长为实际应用带来了重大挑战。本文通过动态选择和激活仅一部分专家的混合专家(MoE)方法,显著减少计算成本同时保持高性能。我们提出了一个创新的统一框架来压缩 MoE,该框架不仅无缝集成了主流压缩方法,还有助于系统地理解 MoE 压缩。在此框架中,我们从两个角度进行了压缩:专家瘦身,压缩单个专家;专家修剪,删除结构化模块。在这些基础上,我们介绍了一些激进的专家修剪技术,并提出了全面的指南,以指导从业者有效地进行 MoE 压缩。广泛的实验结果验证了我们框架下的压缩方法和指南的有效性,实现了 6.05 倍的加速和仅 20.0GB 的内存使用,同时保持了对 Mixtral-8x7B 超过 92% 的性能。
Jun, 2024
本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。此外,本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA,通过在部署过程中仅激活前 k 个专家,使剩余的专家处于非活跃状态。实验证明,MoE-LLaVA 在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B,在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA,我们旨在为稀疏 LVLMs 建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。
Jan, 2024
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任务情境,为优化特征分配提供了隐含指导。此外,引入了先进的《Rank-1 专家公式》来管理一系列直觉,在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明,《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15%的整体准确度提升。
Apr, 2024