BriefGPT.xyz
Ask
alpha
关键词
dynamic splitfuse
搜索结果 - 1
DeepSpeed-FastGen:基于 MII 和 DeepSpeed-Inference 的 LLM 高吞吐文本生成
DeepSpeed-FastGen 是一个采用动态 SplitFuse 策略的系统,相较于 vLLM 等现有系统,在吞吐量上提高了 2.3 倍,平均延迟降低了 2 倍,并且在 token 级别尾延迟降低了最高达 3.7 倍,通过采用 Dee
→
PDF
6 months ago
Prev
Next