Feb, 2024

QuIP#: 通过哈达玛不相干和格码书更好地 LLM 量化

TL;DR在这项研究中,我们引入了权重量化的新方法(QuIP#),通过三个创新技术,在极端压缩模式下(每个权重≤4 位)实现了最先进的结果。QuIP# 通过使用随机哈达玛变换改进 QuIP 的不相干处理,并利用具有不相干权重的球形亚高斯分布来使用向量量化技术。此外,QuIP# 使用微调来提高对原始模型的保真度,实验结果显示其超过了现有的 PTQ 方法,支持快速推理。