May, 2023

大语言模型快速分布式推理服务

TL;DRFastServe 是一种分布式推理服务系统,利用预 emption 技术在输出单词级别上最小化了 Large language models 的 inference 时间,并采用 GPU 内存管理机制,与现有解决方案相比可将平均和 tail JCT 分别提高了 5.1 倍和 6.4 倍。