Mar, 2025

通过专家分片加速MoE模型推理

TL;DR本研究解决了混合专家(MoE)模型推理中硬件利用率低的问题,特别是在多GPU环境下的编码器模型推理方面仍然缺乏探索。提出的MoEShard系统通过张量分片实现了完美的负载均衡,显著提高了推理效率,优化了计算分布,取得了最高6.4倍的速度提升。