Jan, 2024
DeepSpeed-FastGen:基于 MII 和 DeepSpeed-Inference 的 LLM 高吞吐文本生成
DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
Connor Holmes, Masahiro Tanaka, Michael Wyatt, Ammar Ahmad Awan, Jeff Rasley...
TL;DRDeepSpeed-FastGen 是一个采用动态 SplitFuse 策略的系统,相较于 vLLM 等现有系统,在吞吐量上提高了 2.3 倍,平均延迟降低了 2 倍,并且在 token 级别尾延迟降低了最高达 3.7 倍,通过采用 DeepSpeed-MII 和 DeepSpeed-Inference 的协同组合,为 LLMs 提供了高效易用的服务系统。