视觉语言指导调整的混合聚类条件化 LoRA 专家
在多领域图像 - 文本指导数据上进行指导微调是获取多功能多模态大型语言模型(MLLM)的关键,通过创建一组 MLP 层的 LoRA 专家,通过路由函数将每个令牌路由到最佳专家,以适应来自不同领域的令牌的自适应选择,从而解决了多领域指导数据的数据冲突问题,并在混合数据集上获得了持续的性能提升。
Jan, 2024
使用 Mixture-of-LoRAs (MoA) 架构的多任务学习方法,通过培训多个领域特定的 LoRA 模块,采用明确的路由策略和领域标签来防止任务之间的干扰,并最终提高每个个体任务的性能,进而促进领域特定大语言模型(LLMs)的广泛应用。
Mar, 2024
引入了 Mixture of LoRA Experts (MoLE) 方法,利用分层控制和无限制的分支选择,实现了对 LoRA 的优化融合性能和弹性组合能力的提升。通过在自然语言处理(NLP)和视觉与语言(V&L)领域进行广泛的实验评估,证实了 MoLE 的有效性。
Apr, 2024
通过与多模态指令调优相结合,引入了一种综合了条件的低秩适应矩阵 (MixLoRA) 的新方法,旨在减轻任务干扰,实现在多样的多模态任务中具有良好的适应性和灵活性。实验结果表明,MixLoRA 不仅在相同或更高秩的情况下胜过传统的低秩适应方法 LoRA,展现出其在各种多模态评估数据集上的有效性和适应性。
Feb, 2024
本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning,通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型,有效解决多模态学习和模型稀疏性带来的性能退化问题。此外,本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA,通过在部署过程中仅激活前 k 个专家,使剩余的专家处于非活跃状态。实验证明,MoE-LLaVA 在视觉理解方面具有出色的能力,并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B,在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA,我们旨在为稀疏 LVLMs 建立基准,并为未来开发更高效和有效的多模态学习系统提供有价值的见解。
Jan, 2024
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任务情境,为优化特征分配提供了隐含指导。此外,引入了先进的《Rank-1 专家公式》来管理一系列直觉,在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明,《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15%的整体准确度提升。
Apr, 2024
通过介绍新颖且可扩展的框架 LaRA-MoE,本研究通过大型语言模型在多模态学习方面的综合研究和实验,展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性(提升约 20%),以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。
Nov, 2023
本研究探讨了使用稀疏门控专家组技术解决大规模视觉语言模型训练中的挑战,并在等效计算成本下实现最先进性能的潜力,通过稀疏门控专家组对模型解释性的影响及其与 VLM 扩展计算性能之间的折衷,本文为大规模视觉语言模型的扩展提供了宝贵的洞见,并希望能够激发对 MoE 在其他多模态机器学习应用中的研究。
Mar, 2023
提出了一种名为 MLoRE 的新型解码器集中方法,用于多任务密集预测,通过添加一个通用的卷积路径到原始 MoE 结构中以及利用低秩卷积格式的专家网络,以建模全局任务关系并增加表示能力,在多个密集任务学习中实现了优越性能。
Mar, 2024
使用 Omni-SMoLA 结构及 Soft MoE 方法,在大规模多模态模型上实现了性能提升,广泛应用于生成式视觉与语言任务中,达到最新的至顶性能水平。
Dec, 2023