Octavius: 通过 MoE 减少 MLLMs 的任务干扰

Nov, 2023

Octavius: 通过 MoE 减少 MLLMs 的任务干扰

Octavius: Mitigating Task Interference in MLLMs via MoE

Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin...

TL;DR通过介绍新颖且可扩展的框架 LaRA-MoE，本研究通过大型语言模型在多模态学习方面的综合研究和实验，展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性（提升约 20%），以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。

Abstract

Recent studies have demonstrated large language models (LLMs) can extend their zero-shot generalization capabilities to multimodal learning through →

large language models multimodal learning instruction tuning mixture-of-experts peft techniques

发现论文，激发创造

Uni-MoE：使用专家混合方法扩展统一多模态 LLMs

开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构，具有一致的多模态表示，通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理，进一步减少性能偏差，并提高多专家的协作和泛化能力。

May, 2024

MoELoRA: 基于对比学习引导的专家混合模型在大型语言模型的参数高效微调中的应用

利用对比学习以鼓励专家学习不同特征的方式，我们介绍了一种新的参数效率微调方法 MoELoRA，它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。

Feb, 2024

OpenMoE: 开放混合专家语言模型的早期探索

为了更好地帮助开源社区了解基于混合专家的大型语言模型，我们训练并发布了一系列完全开源和可复现的仅解码器类型的混合专家语言模型，参数范围从 650M 到 34B，训练语料超过 1T 个标记。我们的调查确认了基于混合专家的大型语言模型可以提供更有利的成本效益权衡，突出了未来大型语言模型发展的潜在有效性。该研究的另一个重要贡献是对我们 OpenMoE 模型中的路由机制进行深入分析，得出了三个重要发现：上下文无关专业化、早期路由学习和朝末尾丢弃。我们发现，混合专家模型中的路由决策主要基于标记 ID，与上下文相关性较小。标记对专家的分配在预训练阶段早期确定，并且在很大程度上保持不变。这种不完美的路由可能导致性能下降，尤其是在多轮对话等顺序任务中，较后出现的标记更有可能被丢弃。最后，我们根据上述观察和分析重新思考了设计。为了促进未来的混合专家语言模型发展，我们提出了减轻发现的问题并进一步改进现成混合专家语言模型设计的潜在策略。

Jan, 2024

多模态指令调节与条件化 LoRA 混合

通过与多模态指令调优相结合，引入了一种综合了条件的低秩适应矩阵 (MixLoRA) 的新方法，旨在减轻任务干扰，实现在多样的多模态任务中具有良好的适应性和灵活性。实验结果表明，MixLoRA 不仅在相同或更高秩的情况下胜过传统的低秩适应方法 LoRA，展现出其在各种多模态评估数据集上的有效性和适应性。

Feb, 2024

LLaVA-MoLE：稀疏的 LoRA 专家混合模型用于缓解指令微调 MLLMs 中的数据冲突

在多领域图像 - 文本指导数据上进行指导微调是获取多功能多模态大型语言模型（MLLM）的关键，通过创建一组 MLP 层的 LoRA 专家，通过路由函数将每个令牌路由到最佳专家，以适应来自不同领域的令牌的自适应选择，从而解决了多领域指导数据的数据冲突问题，并在混合数据集上获得了持续的性能提升。

Jan, 2024

混合 LoRA：大型语言模型的高效多任务调优

使用 Mixture-of-LoRAs (MoA) 架构的多任务学习方法，通过培训多个领域特定的 LoRA 模块，采用明确的路由策略和领域标签来防止任务之间的干扰，并最终提高每个个体任务的性能，进而促进领域特定大语言模型（LLMs）的广泛应用。

Mar, 2024

MoRAL: MoE 展进 LoRA 用于 LLMs 的终身学习

提出了一种结合 Mixture-of-Experts 和 Low-Rank Adaptation 的方法 MoRAL，用于有效地进行大型语言模型的终身学习，使用问题 - 答案对作为输入以提高鲁棒性和效率，并通过新的评估基准和指标对其进行了全面评估。

Feb, 2024

用于参数高效微调的直觉感知的一级专家的混合模型

多任务场景下，大型语言模型（LLMs）面临着适应性挑战，而《混合专家模型》（MoE）以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》，利用实例的内在语义聚类处理多任务情境，为优化特征分配提供了隐含指导。此外，引入了先进的《Rank-1 专家公式》来管理一系列直觉，在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明，《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15％的整体准确度提升。

Apr, 2024

Omni-SMoLA：用软混合低秩专家提升通用多模态模型

使用 Omni-SMoLA 结构及 Soft MoE 方法，在大规模多模态模型上实现了性能提升，广泛应用于生成式视觉与语言任务中，达到最新的至顶性能水平。

Dec, 2023

MoE-LLaVA：大规模视觉语言模型的专家混合

本文介绍了一种针对大型视觉语言模型 (LVLMs) 的训练策略 MoE-tuning，通过构建一个具有巨大数量参数但恒定计算成本的稀疏模型，有效解决多模态学习和模型稀疏性带来的性能退化问题。此外，本文还提出了基于 MoE 的稀疏 LVLM 架构 MoE-LLaVA，通过在部署过程中仅激活前 k 个专家，使剩余的专家处于非活跃状态。实验证明，MoE-LLaVA 在视觉理解方面具有出色的能力，并且在模型输出的对象幻象基准测试中超越了 LLaVA-1.5-13B，在各种视觉理解数据集上表现可与 LLaVA-1.5-7B 相媲美。通过 MoE-LLaVA，我们旨在为稀疏 LVLMs 建立基准，并为未来开发更高效和有效的多模态学习系统提供有价值的见解。

Jan, 2024