Mar, 2024
LLM-PQ:利用多阶段感知分割和自适应量化为异构集群提供LLM
LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition
and Adaptive Quantization
TL;DRLLM-PQ是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构GPU集群上提高LLM的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ大大提高了推理吞吐量,同时满足用户指定的模型质量目标。对11个不同集群上的生产推理工作负载进行的大量实验表明,LLM-PQ在推理上实现了高达2.88倍(平均2.26倍)的吞吐量改进,显示出较其他最先进方法的巨大优势。