BriefGPT.xyz
Ask
alpha
关键词
large-scale moe training
搜索结果 - 1
TA-MoE: 拓扑感知的大规模专家混合训练
本文提出了一种基于拓扑感知路由策略的 Sparsely gated Mixture-of-Expert 深度神经网络模型,可以根据不同的拓扑结构动态调整传输模式,并通过辅助引导学习自适应地适应拓扑结构,实验结果表明该模型在各种硬件和模型配置
→
PDF
a year ago
Prev
Next