Jun, 2023

自适应路由的专家软融合

TL;DR本文提出了 Soft Merging of Experts with Adaptive Routing(SMEAR)算法,通过使用加权平均的单个合并专家,避免了离散路由,同时实现了标准梯度上升训练。 SEMENT 不仅不会增加计算成本,而且比使用元数据路由或通过梯度估计学习稀疏路由的模型性能更好,同时表明通过 SMEAR 学习到的专家具有显着的特化性。