BriefGPT.xyz
大模型
Ask
alpha
关键词
dual grained quantization
搜索结果 - 1
双粒度量化:LLM 的高效细粒度量化
该论文介绍了一种称为 Dual Grained Quantization (DGQ) 的新型量化技术,通过将细粒度的 INT4 权重解量化为粗粒度的 INT8 表示,并使用 INT8 内核进行矩阵乘法,来保持卓越性能同时确保快速推理速度。实
→
PDF
9 months ago
Prev
Next