多样化动态路由用于视觉任务
本文提出了一种新型的长尾分类器 RIDE,通过多个专家、分布感知多样性损失以及动态专家路由模块来减小模型方差、缩小模型偏差与尾部的差距,相较于现有的方法,在 CIFAR100-LT、ImageNet-LT 和 iNaturalist 2018 基准测试上性能提高了 5%到 7%,并可应用于各种主干网络和长尾算法,具有较高的普适性和一致性性能。
Oct, 2020
本文介绍了一种新颖的动态专家选择框架用于混合专家模型 (Mixture of Experts, MoE),旨在通过根据输入难度调整激活的专家数量来提高计算效率和模型性能。我们的方法动态选择专家,而不是像传统 MoE 方法那样依赖固定的前 K 个路由,无论输入的复杂性如何,都会激活预定数量的专家。通过广泛的评估,我们的动态路由方法在各种基准测试中显示出明显的改进,相对于常规的前 2 个路由平均改进了 0.7%,激活参数不到 90%。进一步的分析显示,我们的模型向需要复杂推理技能的任务派遣更多的专家,如 BBH,验证了它根据输入的复杂性动态分配计算资源的能力。我们的发现还凸显了变压器模型不同层之间所需专家数量的差异,为设计异构 MoE 框架提供了洞察。代码和模型可在给定的 https URL 提供。
Mar, 2024
本文介绍了一种简单的方法来训练神经网络,使得每个测试查询时间内能够进行多元化的结构性预测,同时比现有方法具有更好的多样性和速度。在 2D 图像填充,3D 体积估计和流场预测等三个具有挑战性的任务中,我们的方法得到了量化的改进。
Aug, 2020
该研究通过动态深度路由(D2R)框架实现多任务强化学习,其中通过绕过中间模块灵活选择不同数量的模块来提高数据效率并解决不同策略的路由路径问题。该框架进一步引入 ResRouting 方法解决行为策略和目标策略在离策略训练过程中的差异路由路径问题,并设计了自动的路由平衡机制来促进未掌握任务的继续路由探索。在 Meta-World 基准测试中,通过该框架在各种机器人操作任务上进行了广泛实验,取得了具有显著提高的学习效率的最新成果。
Dec, 2023
本文提出了一种名为 GraphDIVE 的基于节点嵌入的图分类不均衡问题的解决方案,使用多样的专家(即图分类器)进行图分类,通过分阶段训练实现对不均衡样本的有效分类。
Mar, 2021
本文研究了应用于解决路由问题的深度模型在训练时通常只考虑单个数据分布,导致它们的交叉分布泛化能力受到严重削弱,因此提出采用分组分布式鲁棒优化来解决该问题,并设计了基于卷积神经网络的模块,以便让深度模型学习更多节点之间的相关信息。实验结果表明,该方法能显著提高原始模型的交叉分布泛化性能。
Feb, 2022
本文提出了 Soft Merging of Experts with Adaptive Routing(SMEAR)算法,通过使用加权平均的单个合并专家,避免了离散路由,同时实现了标准梯度上升训练。 SEMENT 不仅不会增加计算成本,而且比使用元数据路由或通过梯度估计学习稀疏路由的模型性能更好,同时表明通过 SMEAR 学习到的专家具有显着的特化性。
Jun, 2023
本研究提出了一种简单的 Mixture of Experts 模型,在大规模、多标签的预测任务中表现良好,适用于数据集分布不均、单个 GPU 存储不下的情形,并支持并行训练和统一的特征嵌入空间。该模型的表现表明可以用来训练更大的深度学习模型,拥有更强的处理能力。
Apr, 2017
我们提出并系统评估了三种训练动态路由人工神经网络的策略:通过学习变换的图形,不同的输入信号可以采取不同的路线。我们发现,在训练用于分类图像的动态路由网络中,层和分支变得专门处理不同类别的图像。此外,给定固定的计算预算,动态路由网络往往比可比的静态路由网络表现更好。
Mar, 2017