多任务密集预测通过低秩专家混合

CVPRMar, 2024

多任务密集预测通过低秩专家混合

Multi-Task Dense Prediction via Mixture of Low-Rank Experts

Yuqi Yang, Peng-Tao Jiang, Qibin Hou, Hao Zhang, Jinwei Chen...

TL;DR提出了一种名为 MLoRE 的新型解码器集中方法，用于多任务密集预测，通过添加一个通用的卷积路径到原始 MoE 结构中以及利用低秩卷积格式的专家网络，以建模全局任务关系并增加表示能力，在多个密集任务学习中实现了优越性能。

Abstract

Previous multi-task dense prediction methods based on the Mixture of Experts (MoE) have received great performance but they neglect the importance of explicitly modeling the global relations among all tasks. In this paper, we present a novel decoder-focused method for →

multi-task dense prediction mixture-of-low-rank-experts (mlore)global task relationships parameter sharing representation capacity

发现论文，激发创造

用于参数高效微调的直觉感知的一级专家的混合模型

多任务场景下，大型语言模型（LLMs）面临着适应性挑战，而《混合专家模型》（MoE）以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》，利用实例的内在语义聚类处理多任务情境，为优化特征分配提供了隐含指导。此外，引入了先进的《Rank-1 专家公式》来管理一系列直觉，在多任务 LLM 微调中表现出增强的参数效率和效果。广泛的实验证明，《Intuition-MoR1E》在 14 个公共数据集上相对于其他最先进方法具备更高的效率和 2.15％的整体准确度提升。

Apr, 2024

更高层次需要更多的 LoRA 专家

研究提出了一种新颖的参数高效的 MoE 方法，称为 MoLA，适用于基于 Transformer 的模型，通过为每个模型层分配不同数量的 LoRA 专家，该方法在六个著名的 NLP 和常识 QA 基准上展示了与基线相当或更好的性能，该工作可以作为各种应用的即插即用的参数高效调优方法。

Feb, 2024

视觉语言指导调整的混合聚类条件化 LoRA 专家

一种通过指令调优实现零 - shot 通用性的大型视觉 - 语言模型的训练方法

Dec, 2023

DMoERM：混合专家模型的有效奖励建模方法

通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想，我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型，该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能，并超越了先进的生成方法。

Mar, 2024

MixLoRA：基于 LoRA 的专家混合大语言模型微调增强

提出了一种基于 LoRA 的资源高效稀疏 MoE 模型构建方法，名为 MixLoRA，能够在消费级 GPU 上实现多个专家模型的并行微调，减少了 GPU 内存消耗 41% 和训练过程中的延迟 17%。

Apr, 2024

专家稀疏混合模型的任务特定剪枝

通过逐步删除稀有的 expert，将 Mixture-of-Experts 模型缩减为单一的 dense 模型，以提高计算效率并提供较快的推理速度而保留整体性能。

Jun, 2022

LoRA 专家混合模型

引入了 Mixture of LoRA Experts (MoLE) 方法，利用分层控制和无限制的分支选择，实现了对 LoRA 的优化融合性能和弹性组合能力的提升。通过在自然语言处理（NLP）和视觉与语言（V&L）领域进行广泛的实验评估，证实了 MoLE 的有效性。

Apr, 2024

多线性专家混合模型：通过分解实现可扩展的专家专业化

通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量，从而实现图像模型的细粒度特化，并通过定性和定量的证据证明了其与线性层具有相当的性能，同时进一步协助修正 CelebA 属性分类中的人口统计偏差。

Feb, 2024

稀疏激活的专家混合模型是具有鲁棒性的多任务学习器

使用稀疏激活的专家混合模型和任务感知门控函数结合的多任务学习方法，成功地提高了模型泛化能力、转移学习效果和鲁棒性。

Apr, 2022

大型语言模型中混合专家的更深入研究

Mixture-of-experts (MoE) 的内在机制及行为特征的初步研究表明神经元如同细粒度专家，在参数和行为特征方面带来了一些有趣的观察，为 MoE 框架和其他模块化架构的未来研究提供了启示。

Jun, 2024