Mar, 2023

走向 MoE 部署:缓解专家混合(MoE)推断中的低效率

TL;DR本文提出了三种 Mixture-of-Experts (MoE)模型的优化技术,分别为动态门控、专家缓存和专家负载均衡,其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用,而专家缓存技术可以通过只在 GPU 内存中缓存热门专家来减少最高可达 1.47 倍的静态内存分配。这些技术能够提高该 MoE 模型的效率并使得其更容易部署到实际应用中。