Jan, 2024

DeepSpeed-FastGen:基于 MII 和 DeepSpeed-Inference 的 LLM 高吞吐文本生成

TL;DRDeepSpeed-FastGen 是一个采用动态 SplitFuse 策略的系统,相较于 vLLM 等现有系统,在吞吐量上提高了 2.3 倍,平均延迟降低了 2 倍,并且在 token 级别尾延迟降低了最高达 3.7 倍,通过采用 DeepSpeed-MII 和 DeepSpeed-Inference 的协同组合,为 LLMs 提供了高效易用的服务系统。