FuseMoE: 灵活模态融合的专家混合变压器
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表格、自然语言处理和计算机视觉数据集,证明了 MoDE 的有效性、普适性和鲁棒性。此外,我们通过创新地构建 “专家探针” 进行了平行研究,实验性地证明了为什么 MoDE 起作用:适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能,从而提升 MoE 的整体性能。
Jan, 2024
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
Feb, 2023
通过引入动态的专家混合技术(DynMoE),我们的方法在视觉、语言和视觉 - 语言任务中取得了竞争性能,同时通过激活更少的参数来保持效率。
May, 2024
本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构,具有一致的多模态表示,通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理,进一步减少性能偏差,并提高多专家的协作和泛化能力。
May, 2024
提出了 MoE-F 机制,用于在在线时间序列预测任务中结合 N 个预训练的大型语言模型 (LLMs),通过自适应性地预测在每个时间步骤中 LLMs 预测的最佳加权。通过利用每个专家的运行表现中的条件信息,我们的机制可以预测最佳的 LLMs 组合以预测时间序列的下一个步骤。通过将专家选择问题构建为有限状态空间、连续时间的隐马尔可夫模型 (HMM),我们可以利用 Wohman-Shiryaev 滤波器。我们的方法首先构建了 N 个并行滤波器,分别对应于 N 个单独的 LLMs。每个滤波器根据其拥有的信息提出其最佳的 LLMs 组合。随后,将 N 个滤波器的输出聚合以优化聚合 LLMs 的损失下界,可以通过闭合形式进行优化,从而生成我们的集成预测器。本文贡献包括:(I) MoE-F 算法 - 可作为即插即用的滤波器框架使用;(II) 提出的基于滤波的门控算法的理论最优性保证;(III) 使用最先进的基础和 MoE LLMs 在真实世界的金融市场动态预测任务上进行的实证评估和分析结果,其中 MoE-F 相对于表现最好的单个 LLM 专家获得了显著的 17% 的绝对值和 48.5% 的相对 F1 度量改进。
Jun, 2024
Multi-modal fusion technique incorporating uncertainties through Uncertainty-Encoded Mixture-of-Experts (UMoE) improves object detection performance in extreme weather, adversarial, and blinding attack scenarios for autonomous driving.
Jul, 2023
采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统,成功训练出拥有数百万参数的高效的多语言生成模型,同时提升了模型的样本效率和推断时间效率。
Sep, 2021
本文提出了 SE-MoE 模型,通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术,实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理,即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明,与 DeepSpeed 相比,SE-MoE 在训练和推断中的吞吐量分别提高了 33%和 13%。
May, 2022