BriefGPT.xyz
大模型
Ask
alpha
关键词
mixtures-of-experts model
搜索结果 - 1
LocMoE:一种用于大型语言模型训练的低开销 MoE
通过转换部分节点间通信为节点内通信的路由策略,我们提出了一种新颖的负载均衡和局部性相结合的路由策略,并在 PanGu-Sigma 模型上进行了改进,实验证明该路由策略减少了每轮训练时间约 12.68% 至 22.24%,而不影响模型的准确性
→
PDF
5 months ago
Prev
Next