神经网络训练与不确定数据的专家混合方法

Dec, 2023

神经网络训练与不确定数据的专家混合方法

Training of Neural Networks with Uncertain Data, A Mixture of Experts Approach

Lucas Luttner

TL;DR该研究提出了 “不确定性感知的专家混合”（uMoE）方法，该方法通过将不确定性直接集成到训练过程中来解决基于神经网络的预测模型中的 aleatoric 不确定性问题。结果表明，uMoE 在处理数据不确定性方面显著优于基线方法，并展示了其适应不同不确定性水平并提供最佳阈值参数的能力。该创新方法可在包括生物医学信号处理、自动驾驶和生产质量控制在内的各种数据驱动领域广泛应用。

Abstract

This paper presents the "uncertainty-aware mixture of experts" (uMoE), a novel approach designed to address aleatoric uncertainty in the training of predictive models based on →

uncertainty-aware mixture of experts aleatoric uncertainty neural networks divide and conquer data uncertainty

发现论文，激发创造

混合专家中改进专家专业化能力

本文提出一种新的 MoE 的门控网络结构，类似于注意力机制，可以在任务分解方面提高性能并导致更低的熵，同时介绍了一种新的数据驱动正则化方法，可以提高专家的专业化。

Feb, 2023

自动驾驶中鲁棒目标检测的不确定性编码多模态融合

Multi-modal fusion technique incorporating uncertainties through Uncertainty-Encoded Mixture-of-Experts (UMoE) improves object detection performance in extreme weather, adversarial, and blinding attack scenarios for autonomous driving.

Jul, 2023

重新审视单门限专家混合模型

本文提出了一种基于单门 MoE 的简单且高效的异步训练方法，并通过基于聚类的初始化策略等技术手段实现了高效率与高准确率的权衡，与其他复杂的 MoE 相比表现优异，为单门 MoE 的应用提供了新的思路。

Apr, 2023

HyperMoE: 通过专家之间的迁移改进更好的专家混合

HyperMoE 是一种基于 Hypernetworks 的新型 Mixture of Experts (MoE) 框架，通过利用未选择的专家生成的特定模块作为补充信息，实现在保持选择稀疏性的同时利用未选择的专家的知识，从而在相同条件下显著优于现有 MoE 方法。

Feb, 2024

增强混合专家网络的 “免疫力” 以进行对抗性防御

我们在这项工作中提出了一种新的对抗防御方法称为 “Immunity”（基于修改的 Mixture-of-Experts（MoE）架构），通过集成随机开关门（RSGs）和创新的互信息（MI）和位置稳定性（Position Stability）损失函数，提高深度神经网络对广泛攻击的对抗鲁棒性。

Feb, 2024

图混合专家：使用显式多样性建模在大规模图上学习

该论文引入了 Mixture-of-Expert（MoE）思想到图神经网络中，提出了一种新的 Graph Mixture of Expert（GMoE）模型，用于同时建模多样的训练图结构，通过在 OGB 基准测试中表现的提升来验证 GMoE 的有效性。

Apr, 2023

使用混合随机专家建模分割中的多模态混沌不确定性

该研究提出一种基于 MoSE 模型的分割不确定性计算方法，利用多个专家网络对图像进行不确定性判别，同时提出一种新颖的 Wasserstein-like 损失函数，可对模型进行有效训练和优化。研究表明，在 LIDC-IDRI 数据集和多模态 Cityscapes 数据集上，该方法表现出优越的性能。

Dec, 2022

最小二乘估计在 Softmax 门限混合专家中的应用

在本研究中，我们探究了在数据按照回归模型进行采样的确定性混合专家模型下，最小二乘估计器（LSE）的性能，并建立了称为强可辨识性的条件，以表征不同类型的专家函数的收敛行为。我们证明了广泛使用的具有激活函数 sigmoid 和 tanh 的前馈网络专家的估计速度明显快于多项式专家，后者表现出令人惊讶的缓慢估计速度。我们的研究结果对专家选择具有重要的实际意义。

Feb, 2024

Uni-MoE：使用专家混合方法扩展统一多模态 LLMs

开发一种用于多模态大型语言模型的混合专家 (Uni-MoE) 架构，具有一致的多模态表示，通过稀疏的模态级数据并行和专家级模型并行实现高效的训练和推理，进一步减少性能偏差，并提高多专家的协作和泛化能力。

May, 2024

GW-MoE：应用全局工作空间理论解决 MoE 路由器中的不确定性

通过使用全局工作空间理论，我们提出了 GW-MoE，一个新的微调方法，以解决 Mixture-of-Experts（MoE）模型中的不确定路由结果问题，并在不同任务和模型规模下验证其有效性。

Jun, 2024