FuseMoE: 灵活模态融合的专家混合变压器

Feb, 2024

FuseMoE: 灵活模态融合的专家混合变压器

FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion

Xing Han, Huy Nguyen, Carl Harris, Nhat Ho, Suchi Saria

TL;DR通过混合专家框架和创新的门控函数，本研究介绍了 FuseMoE 模型，该模型可以有效地处理多模态数据、缺失模态以及时间上的不规则和稀疏采样数据，从而改善模型预测性能。通过临床风险预测任务的验证，证实了 FuseMoE 在实际应用中的实用性。

Abstract

As machine learning models in critical fields increasingly grapple with multimodal data, they face the dual challenges of handling a wide array of modalities, often incomplete due to missing elements, and the tem

machine learning models multimodal data missing modalities temporal irregularity mixture-of-experts framework

发现论文，激发创造

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

MoDE: 一种基于专家互相融合的混合模型

我们提出了一种叫作 Mixture-of-Distilled-Expert（MoDE）的方法，通过在专家之间应用适度的相互蒸馏，使每个专家能够掌握其他专家学习到的更多特征，从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验，包括表格、自然语言处理和计算机视觉数据集，证明了 MoDE 的有效性、普适性和鲁棒性。此外，我们通过创新地构建 “专家探针” 进行了平行研究，实验性地证明了为什么 MoDE 起作用：适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能，从而提升 MoE 的整体性能。

Jan, 2024

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

动态专家混合：高效 Transformer 模型的自动调优方法

通过引入动态的专家混合技术（DynMoE），我们的方法在视觉、语言和视觉 - 语言任务中取得了竞争性能，同时通过激活更少的参数来保持效率。

May, 2024

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

Uni-MoE：使用专家混合方法扩展统一多模态 LLMs

开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构，具有一致的多模态表示，通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理，进一步减少性能偏差，并提高多专家的协作和泛化能力。

May, 2024

滤波而非混合：基于随机滤波的大语言模型混合的在线门控

提出了 MoE-F 机制，用于在在线时间序列预测任务中结合 N 个预训练的大型语言模型 (LLMs)，通过自适应性地预测在每个时间步骤中 LLMs 预测的最佳加权。通过利用每个专家的运行表现中的条件信息，我们的机制可以预测最佳的 LLMs 组合以预测时间序列的下一个步骤。通过将专家选择问题构建为有限状态空间、连续时间的隐马尔可夫模型 (HMM)，我们可以利用 Wohman-Shiryaev 滤波器。我们的方法首先构建了 N 个并行滤波器，分别对应于 N 个单独的 LLMs。每个滤波器根据其拥有的信息提出其最佳的 LLMs 组合。随后，将 N 个滤波器的输出聚合以优化聚合 LLMs 的损失下界，可以通过闭合形式进行优化，从而生成我们的集成预测器。本文贡献包括：(I) MoE-F 算法 - 可作为即插即用的滤波器框架使用；(II) 提出的基于滤波的门控算法的理论最优性保证；(III) 使用最先进的基础和 MoE LLMs 在真实世界的金融市场动态预测任务上进行的实证评估和分析结果，其中 MoE-F 相对于表现最好的单个 LLM 专家获得了显著的 17% 的绝对值和 48.5% 的相对 F1 度量改进。

Jun, 2024

自动驾驶中鲁棒目标检测的不确定性编码多模态融合

Multi-modal fusion technique incorporating uncertainties through Uncertainty-Encoded Mixture-of-Experts (UMoE) improves object detection performance in extreme weather, adversarial, and blinding attack scenarios for autonomous driving.

Jul, 2023

多任务多语种模型的可扩展高效 MoE 训练

采用 Mixture of Experts 模型、多维并行技术和 DeepSpeed 库支持的系统，成功训练出拥有数百万参数的高效的多语言生成模型，同时提升了模型的样本效率和推断时间效率。

Sep, 2021

SE-MoE：一种可扩展且高效的专家混合分布式训练和推断系统

本文提出了 SE-MoE 模型，通过引入 Elastic MoE training、2D prefetch 和 Fusion communication 等技术，实现 Mixture-of-Experts 模型在分布式、异构计算系统上的高效训练和推理，即使在非均衡任务中也可以显著提升吞吐量同时减少内存开销。作者通过实验证明，与 DeepSpeed 相比，SE-MoE 在训练和推断中的吞吐量分别提高了 33％和 13％。

May, 2022