Omni-SMoLA:用软混合低秩专家提升通用多模态模型
开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构,具有一致的多模态表示,通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理,进一步减少性能偏差,并提高多专家的协作和泛化能力。
May, 2024
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任务情境,为优化特征分配提供了隐含指导。此外,引入了先进的《Rank-1 专家公式》来管理一系列直觉,在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明,《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15%的整体准确度提升。
Apr, 2024
本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。此外,本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA,通过在部署过程中仅激活前 k 个专家,使剩余的专家处于非活跃状态。实验证明,MoE-LLaVA 在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B,在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA,我们旨在为稀疏 LVLMs 建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。
Jan, 2024
基于混合专家的大型语言模型(如最近的 Mixtral 和 DeepSeek-MoE)在规模大小上显示出巨大潜力,其训练成本不会像密集变换器那样呈二次增长。然而,我们发现增加专家的数量会导致递减收益,因此我们建议将推理效率作为模型缩放定律的指标之一,以在相同性能下提供最好的解决方案。
Apr, 2024
本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力,通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了宝贵的洞见,并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。
Mar, 2023
通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量,从而实现图像模型的细粒度特化,并通过定性和定量的证据证明了其与线性层具有相当的性能,同时进一步协助修正 CelebA 属性分类中的人口统计偏差。
Feb, 2024
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
Sep, 2023
通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
Feb, 2024
通过介绍新颖且可扩展的框架 LaRA-MoE,本研究通过大型语言模型在多模态学习方面的综合研究和实验,展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性(提升约 20%),以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。
Nov, 2023