BriefGPT.xyz
Ask
alpha
关键词
int4
搜索结果 - 2
QServe: W4A8KV4 量化和系统协同设计用于高效 LLM 服务
量化技术在提速大规模语言模型推理方面发挥作用,但现有的 INT4 量化方法在大批量云端应用中存在效率问题。本研究提出了一种名为 QoQ 的算法,该算法通过使用 4 位权重、8 位激活和 4 位 KV 缓存来解决该挑战,并通过 QServe
→
PDF
2 months ago
ZeroQuant (4+2): 通过一种基于 FP6 的新策略重新定义 LLMs 量化,用于不同的生成任务
本研究审查了大型语言模型中的 4 位量化方法,重点关注 GPTQ 在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现 INT4 量化在其中显著性能不佳。然而,转向高精度格式如 FP6 却面临挑战
→
PDF
7 months ago
Prev
Next