Mar, 2024

LLM-PQ:利用多阶段感知分割和自适应量化为异构集群提供 LLM

TL;DRLLM-PQ 是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构 GPU 集群上提高 LLM 的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ 大大提高了推理吞吐量,同时满足用户指定的模型质量目标。对 11 个不同集群上的生产推理工作负载进行的大量实验表明,LLM-PQ 在推理上实现了高达 2.88 倍(平均 2.26 倍)的吞吐量改进,显示出较其他最先进方法的巨大优势。