BriefGPT.xyz
Ask
alpha
关键词
sequence-level expert activation tracing
搜索结果 - 1
MoE-Infinity: 激活感知的专家卸载以提升 MoE 服务的效率
MoE-Infinity 是一个成本高效的专家混合系统,实现了激活感知的专家卸载。通过分析序列级专家激活追踪,MoE-Infinity 执行新颖的激活感知专家预取和缓存,显著降低了通常与专家卸载相关的延迟开销,并提高了性价比。大量的集群实验
→
PDF
6 months ago
Prev
Next