多任务密集预测通过低秩专家混合
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任务情境,为优化特征分配提供了隐含指导。此外,引入了先进的《Rank-1 专家公式》来管理一系列直觉,在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明,《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15%的整体准确度提升。
Apr, 2024
研究提出了一种新颖的参数高效的 MoE 方法,称为 MoLA,适用于基于 Transformer 的模型,通过为每个模型层分配不同数量的 LoRA 专家,该方法在六个著名的 NLP 和常识 QA 基准上展示了与基线相当或更好的性能,该工作可以作为各种应用的即插即用的参数高效调优方法。
Feb, 2024
通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想,我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型,该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能,并超越了先进的生成方法。
Mar, 2024
提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法,名为 MixLoRA,能够在消费级 GPU 上实现多个专家模型的并行微调,减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。
Apr, 2024
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
引入了 Mixture of LoRA Experts (MoLE) 方法,利用分层控制和无限制的分支选择,实现了对 LoRA 的优化融合性能和弹性组合能力的提升。通过在自然语言处理(NLP)和视觉与语言(V&L)领域进行广泛的实验评估,证实了 MoLE 的有效性。
Apr, 2024
通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量,从而实现图像模型的细粒度特化,并通过定性和定量的证据证明了其与线性层具有相当的性能,同时进一步协助修正 CelebA 属性分类中的人口统计偏差。
Feb, 2024
Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家,在参数和行为特征方面带来了一些有趣的观察,为 MoE 框架和其他模块化架构的未来研究提供了启示。
Jun, 2024