Dec, 2023

DeltaZip:通过增量压缩提供多租户语言模型服务

TL;DR通过提取和压缩模型与其预训练基础模型之间的差异,DeltaZip 是一种 LLM 服务系统,可以高效地同时提供多个全参数微调模型,压缩因子可达 6 倍至 8 倍,并且可以提高服务吞吐量 1.5 倍至 3 倍,相比于香草 HuggingFace 服务系统,可改善 SLO 达成率。