神经网络训练与不确定数据的专家混合方法
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
Feb, 2023
Multi-modal fusion technique incorporating uncertainties through Uncertainty-Encoded Mixture-of-Experts (UMoE) improves object detection performance in extreme weather, adversarial, and blinding attack scenarios for autonomous driving.
Jul, 2023
本文提出了一种基于单门 MoE 的简单且高效的异步训练方法,并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡,与其他复杂的 MoE 相比表现优异,为单门 MoE 的应用提供了新的思路。
Apr, 2023
HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架,通过利用未选择的专家生成的特定模块作为补充信息,实现在保持选择稀疏性的同时利用未选择的专家的知识,从而在相同条件下显著优于现有 MoE 方法。
Feb, 2024
我们在这项工作中提出了一种新的对抗防御方法称为 “Immunity”(基于修改的 Mixture-of-Experts(MoE)架构),通过集成随机开关门(RSGs)和创新的互信息(MI)和位置稳定性(Position Stability)损失函数,提高深度神经网络对广泛攻击的对抗鲁棒性。
Feb, 2024
该论文引入了 Mixture-of-Expert(MoE)思想到图神经网络中,提出了一种新的 Graph Mixture of Expert(GMoE)模型,用于同时建模多样的训练图结构,通过在 OGB 基准测试中表现的提升来验证 GMoE 的有效性。
Apr, 2023
该研究提出一种基于 MoSE 模型的分割不确定性计算方法,利用多个专家网络对图像进行不确定性判别,同时提出一种新颖的 Wasserstein-like 损失函数,可对模型进行有效训练和优化。研究表明,在 LIDC-IDRI 数据集和多模态 Cityscapes 数据集上,该方法表现出优越的性能。
Dec, 2022
在本研究中,我们探究了在数据按照回归模型进行采样的确定性混合专家模型下,最小二乘估计器(LSE)的性能,并建立了称为强可辨识性的条件,以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数 sigmoid 和 tanh 的前馈网络专家的估计速度明显快于多项式专家,后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。
Feb, 2024
开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构,具有一致的多模态表示,通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理,进一步减少性能偏差,并提高多专家的协作和泛化能力。
May, 2024
通过使用全局工作空间理论,我们提出了 GW-MoE,一个新的微调方法,以解决 Mixture-of-Experts(MoE)模型中的不确定路由结果问题,并在不同任务和模型规模下验证其有效性。
Jun, 2024