量化指令调优大语言模型的综合评估：实验分析至405B

Sep, 2024

量化指令调优大语言模型的综合评估：实验分析至405B

A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Jemin Lee, Sihyeong Park, Jinse Kwon, Jihun Oh, Yongin Kwon

TL;DR本研究解决了以往对量化大语言模型评估的不足，尤其是针对最近的405B大模型（如Llama 3.1）的缺乏全面分析。通过对多种量化方法的评估，发现较大模型的量化性能普遍优于较小的FP16模型，并且不同量化方法和模型尺寸会显著影响结果，这对未来量化技术的应用具有重要影响。

Abstract

Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various →

发现论文，激发创造

量子化大型语言模型中是否存在突现能力：一项实证研究

本文研究了量化对语言模型的影响，重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响，实验证明4位量化模型仍然存在这些新兴能力，而2位模型在这些能力测试中遭受严重性能下降，通过模型微调和特定分析方法，本文揭示了量化对新兴能力影响的一系列重要发现，并为极低位量化提供了思路。

Jul, 2023

再探基于块的量化：子8位低精度设备基于块的推理中的重要因素

通过使用块量化技术，本研究实现了基于大型语言模型（LLMs）的几乎无损6位量化，与浮点数基准相比算术密度增加了19倍，内存密度增加了5倍，超过了之前8位量化的先前技术。同时，介绍了子8位LLM量化的关键见解，包括激活和权重分布之间的不匹配、最佳的微调策略，以及LLMs统计属性中固有的较低量化粒度。该研究提出的框架将在发表后开源。

Oct, 2023

通过权重和激活量化提升大型语言模型的计算效率

该研究探讨了大型语言模型的后训练量化，特别是4位权重和8位激活（W4A8）量化，以提高计算效率，介绍了激活量化感知的缩放（AQAS）和序列长度感知的校准（SLAC）等创新技术，并引入了整数和非规格化表示的混合数据格式（dINT）来解决W4A8量化中的下溢问题，并通过对LLMs的严格评估证明这些技术显著提高了任务准确度，并且与完整精度模型相当，通过与dINT兼容的算术单元的开发，进一步证实了该方法相对于8位整数MAC单元可以提升2倍硬件效率。

Nov, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

评估量化的大型语言模型

本论文通过对PTQ技术在11个模型家族的综合评估，系统总结了量化对权重、激活函数和KV Cache的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024

大型语言模型量化之困: 基于扰动视角的实证研究

量化作为一种改善大型语言模型的存储和计算效率的有前途的技术，本研究以新的扰动视角，研究了量化与大型语言模型性能之间的关系，并发现了扰动特性与性能之间的联系，提供了改善模型量化鲁棒性的潜在解决方案，并在实验证明了基于这一视角的简单非均匀量化方法在权重和激活量化方面都能达到较小的性能损失，以此改善大型语言模型的效率而不牺牲性能。

Mar, 2024

量化LLM在规模和精度方面的能力

通过对模型规模和量化的综合评估，发现在各种任务中，规模较大的模型通常优于规模较小的模型，同时大规模模型对于精度降低有很好的韧性，可在较小的内存要求下保持高准确性，因此它们比使用更小的模型更好。

May, 2024

量化语言模型的泛化能力评估：基准、分析与工具箱

使用全面的基准套件，我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响，并且发布了一个模块化设计的工具包来帮助未来的研究。

Jun, 2024

SIFo基准测试：探索大型语言模型的顺序指令跟随能力

评估大型语言模型（LLMs）遵循多个指令的能力面临诸多挑战，为解决这些问题，我们引入了一个基准测试，通过顺序指令跟踪任务评估模型的遵循多个指令的能力。

Jun, 2024

LLaMA3-70B的独特性与每通道量化：一项实证研究

本研究解决了LLaMA3-70B模型在使用8位整数权重和8位整数激活（W8A8）后训练量化时，独特的准确度下降行为这一问题。我们提出了一种混合策略，通过对少于3%的层应用精细的W8A8量化，显著提升LLaMA3-70B模型在推理任务中的表现，准确度从45.5%提高至73.4%。这一发现为大语言模型的高效部署提供了新思路。

Aug, 2024