EMNLPOct, 2023

再探基于块的量化:子 8 位低精度设备基于块的推理中的重要因素

TL;DR通过使用块量化技术,本研究实现了基于大型语言模型(LLMs)的几乎无损 6 位量化,与浮点数基准相比算术密度增加了 19 倍,内存密度增加了 5 倍,超过了之前 8 位量化的先前技术。同时,介绍了子 8 位 LLM 量化的关键见解,包括激活和权重分布之间的不匹配、最佳的微调策略,以及 LLMs 统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。