- ICMLMVMoE:多任务车辆路由求解器与专家混合
研究人员提出了一个多任务车辆路径问题求解器,利用混合专家和分层门控机制来解决车辆路径问题,并取得了显著的泛化性能。
- M3oE:多域多任务专家混合推荐框架
M3oE 是一种自适应的多领域多任务专家混合推荐框架,通过整合多领域信息、跨领域和任务的知识映射以及优化多个目标,以解决多领域多任务推荐中的复杂依赖关系。实验证明 M3oE 在两个基准数据集上表现出卓越的性能。
- Swin2-MoSE:一种新的遥感单幅图像超分辨率模型
我们提出了 Swin2-MoSE 模型,它是 Swin2SR 的增强版本,引入 MoE-SM(增强的专家混合编码器)来替换 Transformer 模块中的前馈网络,并通过智能合并、新的输出融合层和新的工作分配策略,改进了专家之间的合作。同 - U2++ 模型:以最小对 RTF 影响的方式扩展 4.7 倍参数
通过学习仅激活训练和推理中的一部分参数,混合专家 (MoE) 被提出作为一种高效能的能源路径,用于更大、更强大的语言模型。本文通过将 MoE 层替代所有前馈网络 (FFN) 层,展示了一个简单有效的 ASR 模型,并基于统一的双向注意解码器 - 用于参数高效微调的直觉感知的一级专家的混合模型
多任务场景下,大型语言模型(LLMs)面临着适应性挑战,而《混合专家模型》(MoE)以其稀疏架构有效地解耦任务而成为一种有希望的解决方案。本研究设计了一种模仿人类大脑的新框架《Intuition-MoR1E》,利用实例的内在语义聚类处理多任 - 密集训练,稀疏推断:重思混合专家语言模型的训练
通过采用密集计算进行训练和稀疏计算进行推理的混合密集与稀疏混合模型 (DS-MoE),在保持性能的同时实现了强大的计算和参数效率,比标准稀疏 MoE 更具参数效率,在总参数大小和性能方面与密集模型持平,而且计算成本更低。
- 稠密专家混合模型的泛化误差分析:初步研究
在这篇论文中,我们探索了稀疏专家混合模型(Sparse MoE)在各种关键因素下的泛化误差,并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。
- GeRM:一种混合专家四足机器人的通用模型
GeRM 是一种多任务机器人学习方法,利用离线强化学习优化数据利用策略来从示范和次优数据中学习,通过引入专家混合结构解决有限的强化学习参数问题,并提供更快的推理速度和更高的模型容量,同时控制计算成本,在多任务学习中提高模型性能。通过一系列实 - MMoE:多模态信息和领域感知的鲁棒剧透检测
在线电影评论网站是关于电影信息和讨论的重要资源,为了解决剧透才能提供更好的电影观影体验,本研究提出了 MMoE 多模态网络,采用多种方式结合信息以提高鲁棒性和领域推广能力,实验证明该方法在剧透检测方面表现出色。
- 宪政专家:培训基于原则的提示的混合方法
通过逐步编辑单独原则的方式,我们的研究引入了 ConstitutionalExperts 方法,该方法可学习构成原则的提示,与其他最新的提示优化技术相比,我们的方法在六个基准数据集上取得了 10.9%(F1)的优势,并且混合专家模型可以改进 - DMoERM:混合专家模型的有效奖励建模方法
通过在奖励模型中引入 Mixture-of-Experts (MoE) 思想,我们提出了一种新的 Double-Layer MoE RM (DMoERM) 模型,该模型在任务分类和能力维度上的精细调优方面表现出卓越的性能,并超越了先进的生成 - 增强混合专家网络的 “免疫力” 以进行对抗性防御
我们在这项工作中提出了一种新的对抗防御方法称为 “Immunity”(基于修改的 Mixture-of-Experts(MoE)架构),通过集成随机开关门(RSGs)和创新的互信息(MI)和位置稳定性(Position Stability) - 通过更稀疏的选择提高稀疏模型的效率
提出了 ool,一种新颖的 MoE 模型,通过利用小型专家和基于阈值的路由器,实现了对模型性能的提升,并在减少计算负载 50% 以上的同时,不牺牲性能。
- 不是所有专家都是平等的:用于混合专家大型语言模型的高效专家修剪和跳过
通过引入插拔式专家级稀疏化技术,本文主要针对 MoE LLMs 的部署效率进行了改进,提出了任务无关和任务特定的专家修剪和跳过方法,从而同时减小模型大小、增加推理速度并保持满意的性能。
- ICLR基于专家模型的物理约束扩展
通过使用 Mixture-of-Experts (MoE),我们开发了一种可扩展的方法来强制执行硬物理约束,以增强神经 PDE 求解器在预测挑战性非线性系统动力学方面的准确性,并改善训练稳定性以及在训练和推断阶段所需的计算时间。
- MoRAL: MoE 展进 LoRA 用于 LLMs 的终身学习
提出了一种结合 Mixture-of-Experts 和 Low-Rank Adaptation 的方法 MoRAL,用于有效地进行大型语言模型的终身学习,使用问题 - 答案对作为输入以提高鲁棒性和效率,并通过新的评估基准和指标对其进行了全 - 更高层次需要更多的 LoRA 专家
研究提出了一种新颖的参数高效的 MoE 方法,称为 MoLA,适用于基于 Transformer 的模型,通过为每个模型层分配不同数量的 LoRA 专家,该方法在六个著名的 NLP 和常识 QA 基准上展示了与基线相当或更好的性能,该工作可 - Fiddler: 快速推断混合专家模型的 CPU-GPU 编排
Fiddler 是一种资源高效的推理引擎,基于 CPU-GPU 协同工作模式用于 Mixture-of-Experts 模型,可以在资源有限的设置中,在单一 GPU 上运行未压缩的 Mixtral-8x7B 模型,其参数超过 90GB,每秒 - 基于大型语言模型的多模态临床试验结果预测
临床试验结果预测的多模态融合专家模型(LIFTED)通过将各种方式的数据转化为自然语言描述,再利用统一的噪声抵抗编码器提取信息,进一步利用稀疏的专家模型优化表示,通过动态集成不同方式的表示进行预测,有效提升临床试验结果预测性能。
- AAAIMoDE: 一种基于专家互相融合的混合模型
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表