Jan, 2024
利用层间专家亲和性加速混合专家模型推理
Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference
Jinghan Yao, Quentin Anthony, Aamir Shafi, Hari Subramoni, Dhabaleswar K....
TL;DR在这篇论文中,我们提出了一种轻量级的优化技术 called ExFlow,用于大大加速 Mixture of Experts 模型的推理过程,并通过利用层间专家亲和力来减少跨 GPU 路由延迟,取得了显著的推理吞吐量提升效果。