BriefGPT.xyz
Ask
alpha
关键词
expert buffering
搜索结果 - 1
走向 MoE 部署:缓解专家混合(MoE)推断中的低效率
本文提出了三种 Mixture-of-Experts (MoE)模型的优化技术,分别为动态门控、专家缓存和专家负载均衡,其中动态门控技术可以在多达 5 倍的性能提升的同时减少 GPU 内存的使用,而专家缓存技术可以通过只在 GPU 内存中缓
→
PDF
a year ago
Prev
Next