BriefGPT.xyz
大模型
Ask
alpha
关键词
llm-pq
搜索结果 - 1
LLM-PQ:利用多阶段感知分割和自适应量化为异构集群提供 LLM
LLM-PQ 是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构 GPU 集群上提高 LLM 的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ 大大提高了推理吞吐量,同时满足用户指定的模型质量
→
PDF
4 months ago
Prev
Next