Oct, 2023

再探基于块的量化:子8位低精度设备基于块的推理中的重要因素

TL;DR通过使用块量化技术,本研究实现了基于大型语言模型(LLMs)的几乎无损6位量化,与浮点数基准相比算术密度增加了19倍,内存密度增加了5倍,超过了之前8位量化的先前技术。同时,介绍了子8位LLM量化的关键见解,包括激活和权重分布之间的不匹配、最佳的微调策略,以及LLMs统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。