Jan, 2024

利用层间专家亲和性加速混合专家模型推理

TL;DR在这篇论文中,我们提出了一种轻量级的优化技术 called ExFlow,用于大大加速 Mixture of Experts 模型的推理过程,并通过利用层间专家亲和力来减少跨 GPU 路由延迟,取得了显著的推理吞吐量提升效果。