May, 2024

SpinQuant: 利用学习到的旋转进行 LMM 量化

TL;DR通过优化旋转参数,针对大型语言模型(LLMs)进行后训练量化(PTQ)可显著减少内存使用、延迟和功耗,并减小其量化误差。通过将随机旋转应用于 LLMs 中的激活和权重矩阵,SpinQuant 方法优化旋转矩阵来减小量化误差,对比其他方法提升了零样本推理性能,尤其在难以量化的模型上获得了显著提升。