MoCaE: 混合校准专家显著改进目标检测
本篇论文提出了一种名为 RMoE 的训练 pipeline,用于在下游视觉任务中高效地训练 MoE 视觉 transformer,该方法的核心思想是通过因式分解将 MoE 的权重分解成独立于输入的核和依赖于输入的残差两部分,从而实现了极高的训练效率。
Apr, 2022
构建一个通用检测器的关键问题是如何在大量混合数据集上最有效地训练模型?答案在于学习数据集特定的特征并将它们的知识组合在一个单一模型中。我们提出了一种解决方案,即基于数据集的专家混合模型 (DAMEX),通过训练专家成为数据集的 “专家”,学习将每个数据集的标记路由到相应的专家。在通用对象检测基准上的实验证明了我们超越了现有的最先进水平,平均提高了 10.2 个 AP 分数,并比非 MoE 基准模型平均提高了 2.0 个 AP 分数。我们还观察到,在混合具有 (1) 有限可用性的数据集、(2) 不同领域的数据集和 (3) 不同标签集的数据集时,仍然表现出稳定的优势。此外,我们定性地展示了 DAMEX 对抗专家表示崩溃的鲁棒性。
Nov, 2023
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
Feb, 2023
我们的研究展示了混合专家架构的多样性,即使在严格的参数约束下,也能提供稳健的性能,并通过唯一地将 MoE 架构与轻量级专家相结合,提出了极其高效的 MoE 架构,推动了 MoE 的极限。
Sep, 2023
我们提出了一种叫作 Mixture-of-Distilled-Expert(MoDE)的方法,通过在专家之间应用适度的相互蒸馏,使每个专家能够掌握其他专家学习到的更多特征,从而对其原始分配的子任务有更准确的认识。我们进行了大量的实验,包括表格、自然语言处理和计算机视觉数据集,证明了 MoDE 的有效性、普适性和鲁棒性。此外,我们通过创新地构建 “专家探针” 进行了平行研究,实验性地证明了为什么 MoDE 起作用:适度的知识蒸馏可以提高每个单独专家在其所分配任务上的测试性能,从而提升 MoE 的整体性能。
Jan, 2024
Multi-modal fusion technique incorporating uncertainties through Uncertainty-Encoded Mixture-of-Experts (UMoE) improves object detection performance in extreme weather, adversarial, and blinding attack scenarios for autonomous driving.
Jul, 2023
本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量,从而实现图像模型的细粒度特化,并通过定性和定量的证据证明了其与线性层具有相当的性能,同时进一步协助修正 CelebA 属性分类中的人口统计偏差。
Feb, 2024
本文研究了 Mixture-of-Experts(MoE)层如何在深度学习中提高神经网络的性能以及为什么混合模型不会崩溃。通过研究困难的分类问题,我们证明了 MoE 模型的有效性,理论上表明路由器可以学习聚类中心特征,帮助将复杂的问题分解为更简单的线性分类子问题,而专家网络可以解决这些子问题,该文是最早正式理解深度学习中 MoE 层机制的结果之一。
Aug, 2022
提出了一种用于从较便宜的弱 / 噪声标签中学习的 ADMoE 方法,该方法通过 MoE 构架鼓励专业和可扩展的学习,并通过构建 “专家” 子网络来鼓励专业化,在 8 个数据集中有效地使用,可以提高 34%的性能。
Aug, 2022