Apr, 2024

顶上的樱桃:大型语言模型中的参数异质性和量化

TL;DR对大型语言模型中的参数异质性进行研究,发现少数 ``cherry'' 参数对模型性能具有巨大影响,而绝大多数参数影响微乎其微。基于此观察,提出了 CherryQ,一种新的混合精度参数优化方法,通过将关键 cherry 参数保存为高精度,将其他参数积极量化为低精度。广泛实验证明了 CherryQ 的有效性,在困惑度和下游任务性能方面优于现有的量化方法。值得注意的是,我们的 3 位量化 Vicuna-1.5 在性能上与 16 位量化模型相媲美。这些发现凸显了 CherryQ 在提高 LLM 的部署效率方面的潜力。