4 位精度的必要性:k 位推断缩放定律
对大型语言模型的量化技术进行研究,发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能,并且困惑度可以作为量化语言模型的代理度量。然而,量化也会影响推断速度,因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。
Feb, 2024
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
May, 2024
通过数万次的零 - shot 实验,我们对后期训练量化 (PTQ) 的各种组成成分和效应进行了全面的研究,发现细粒度量化和 PTQ 方法是获得良好准确性所必需的,并且粗粒度量化的高比特位(例如,5 比特)比非常细粒度量化的低比特位(例如,4 比特)更强大。
Mar, 2023
大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算,同时保持良好的准确性;我们通过名为 QUIK 的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为 4 位,将一些异常值保留在较高精度;关键是,我们的方案专注于计算效率,提供高效的逐层 GPU 内核,相对于 FP16 执行,端到端的吞吐量可提高最多 3.1 倍。
Oct, 2023
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销,并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能(至少达到非量化性能的 83%)。
Feb, 2024
本研究审查了大型语言模型中的 4 位量化方法,重点关注 GPTQ 在零样本任务中的过拟合问题和限制。我们扩展了任务范围,涵盖了生成类别,如代码生成和抽象概括,发现 INT4 量化在其中显著性能不佳。然而,转向高精度格式如 FP6 却面临挑战,因为现有 AI 硬件上缺乏复杂的集成和系统加速策略导致性能较差,常被忽视。实验结果显示,FP6,即便采用粗粒度的量化方案,也能在各种算法和任务上表现出色,展示了它在准确性和多功能性方面的优势。值得注意的是,使用 FP6 量化,codestar-15B 模型在代码生成方面表现与其 FP16 对等,对于较小的模型如 406M,与摘要生成的基准模型非常接近,而 INT4 无法达到这种性能。为了更好适应各种 AI 硬件并实现最佳系统性能,我们提出了一种用于 FP6 的新颖 4+2 设计,以达到与最先进的 INT4 精细的量化相似的时延。通过我们的设计,FP6 可以成为当前 LLMs 中使用的 4 位量化方法的有希望的解决方案。
Dec, 2023
通过使用块量化技术,本研究实现了基于大型语言模型(LLMs)的几乎无损 6 位量化,与浮点数基准相比算术密度增加了 19 倍,内存密度增加了 5 倍,超过了之前 8 位量化的先前技术。同时,介绍了子 8 位 LLM 量化的关键见解,包括激活和权重分布之间的不匹配、最佳的微调策略,以及 LLMs 统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。
Oct, 2023
通过提出一种数据无关的蒸馏方法,利用预训练模型生成的结果来实现对语言模型低位量化,包括权重、激活值和 KV Cache,该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。
May, 2023