Sep, 2023

重新思考通道维度,以隔离大型语言模型低比特权重量化中的异常值

TL;DR大型语言模型(LLMs)在各种任务中取得了显著的成功,但在小批量推断设置下(例如移动设备),有效地为 LLMs 提供服务一直是一个挑战,因为其存在着大量的内存瓶颈。本文提出了一种量化方案,即基于权重的量化,但是 sub-4 bit 量化仍然是一个挑战,因为存在大幅度的激活异常值。为了减轻不良的异常值效应,我们首先提出了 per-IC 量化,这是一种简单而有效的方法,它在每个输入通道(IC)内创建量化组,而不是传统的每个输出通道(OC)。然后,我们提出了 AdaDim,这是一种可以适应各种权重敏感性模式的多功能量化框架。通过对先前的方法进行改进,如 Round-To-Nearest 和 GPTQ,我们展示了 AdaDim 的有效性,在基础的语言建模基准测试和指导性调优的 LLMs 中都取得了显著的改进效果(在 MMLU 上最高 + 4.7%,在 HumanEval 上最高 + 10%)。