稀疏激活的专家混合模型是具有鲁棒性的多任务学习器
提出了一种名为 MMoEEx 的多门分层专家模型用于解决多任务学习(MTL)中的挑战,旨在优化单个模型以同时预测具有不同特征的多个任务,我们采用了一种方法来引入专家间的多样性,以创造更适合高度不平衡和异构 MTL 学习的表示,并采用两步优化方法在梯度水平上平衡任务。
Jun, 2021
通过逐步删除稀有的 expert,将 Mixture-of-Experts 模型缩减为单一的 dense 模型,以提高计算效率并提供较快的推理速度而保留整体性能。
Jun, 2022
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
在这篇论文中,我们探索了稀疏专家混合模型(Sparse MoE)在各种关键因素下的泛化误差,并从经典学习理论的角度提供了如何使用稀疏性来提高混合模型泛化性能的见解。
Mar, 2024
本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法,通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果,而只需在计算效率方面付出少量代价。
Jan, 2017
该研究提出了 Mod-Squad 模型,使用模块化结构将组内的专家与任务相匹配,并在训练过程中优化匹配过程以对抗多任务学习的挑战。实验表明本方法在任务数量和训练集规模扩大时表现强于其他方法。
Dec, 2022
本文提出了分层专家混合(SMoE)模型,该模型具有分层结构,可以为不同令牌分配动态容量,可用于提高机器翻译中的性能和减少参数不足问题。SMoE 在两个多语言机器翻译基准测试上表现出色,优于多个最先进的 MoE 模型。
May, 2023
本研究提出了 Mixture of Expert Clusters 模型,通过在路由阶段引入基于方差的约束来促进专家层学习更多不同和适当的知识,并提出了一种专家集群结构的集群级别专家丢失策略。实验证明,该模型可以提高机器翻译和自然语言理解任务的性能,并在有限数据条件下扩展专家的性能上限,对缓解过度拟合和稀疏数据分配问题起到积极作用。
Jul, 2022