BriefGPT.xyz
Ask
alpha
关键词
expert affinity
搜索结果 - 1
利用层间专家亲和性加速混合专家模型推理
在这篇论文中,我们提出了一种轻量级的优化技术 called ExFlow,用于大大加速 Mixture of Experts 模型的推理过程,并通过利用层间专家亲和力来减少跨 GPU 路由延迟,取得了显著的推理吞吐量提升效果。
PDF
6 months ago
Prev
Next