Mar, 2025
通过专家分片加速MoE模型推理
Accelerating MoE Model Inference with Expert Sharding
Oana Balmau, Anne-Marie Kermarrec, Rafael Pires, André Loureiro Espírito Santo, Martijn de Vos...
TL;DR本研究解决了混合专家(MoE)模型推理中硬件利用率低的问题,特别是在多GPU环境下的编码器模型推理方面仍然缺乏探索。提出的MoEShard系统通过张量分片实现了完美的负载均衡,显著提高了推理效率,优化了计算分布,取得了最高6.4倍的速度提升。