LLaMA3-70B的独特性与每通道量化：一项实证研究

Aug, 2024

LLaMA3-70B的独特性与每通道量化：一项实证研究

The Uniqueness of LLaMA3-70B with Per-Channel Quantization: An Empirical Study

Minghai Qin

TL;DR本研究解决了LLaMA3-70B模型在使用8位整数权重和8位整数激活（W8A8）后训练量化时，独特的准确度下降行为这一问题。我们提出了一种混合策略，通过对少于3%的层应用精细的W8A8量化，显著提升LLaMA3-70B模型在推理任务中的表现，准确度从45.5%提高至73.4%。这一发现为大语言模型的高效部署提供了新思路。

Abstract

We have observed a distinctive Quantization-related behavior in the LLaMA3/3.1-70B models that is absent in both the LLaMA2-70B and LLaMA3/3.1-8B/405B models. Quantization is a crucial technique for deploying lar

发现论文，激发创造

LLM-QAT: 大型语言模型的无数据量化感知训练

通过提出一种数据无关的蒸馏方法，利用预训练模型生成的结果来实现对语言模型低位量化，包括权重、激活值和KV Cache，该方法比已有的基于训练后量化和无训练量化方法更适用于低精度位级下的大型语言模型。

May, 2023

QLLM：用于大型语言模型的准确高效低比特量化

通过自适应通道重组技术，QLLM提出了一种准确高效的低精度模型量化方法，实现了对大规模语言模型的低精度量化，并在LLaMA-2上相较于之前最先进的方法提高了7.89%的平均准确率。

Oct, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现4位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

大型语言模型量化之困: 基于扰动视角的实证研究

量化作为一种改善大型语言模型的存储和计算效率的有前途的技术，本研究以新的扰动视角，研究了量化与大型语言模型性能之间的关系，并发现了扰动特性与性能之间的联系，提供了改善模型量化鲁棒性的潜在解决方案，并在实验证明了基于这一视角的简单非均匀量化方法在权重和激活量化方面都能达到较小的性能损失，以此改善大型语言模型的效率而不牺牲性能。

Mar, 2024

低位量化的LLaMA3模型效果如何？实证研究

LLaMA3在低位量化方面存在明显的性能下降问题，需要在未来的发展中弥合低位宽度下的性能差距，此经验研究对于推进未来模型的发展非常有价值。

Apr, 2024

量化LLM在规模和精度方面的能力

通过对模型规模和量化的综合评估，发现在各种任务中，规模较大的模型通常优于规模较小的模型，同时大规模模型对于精度降低有很好的韧性，可在较小的内存要求下保持高准确性，因此它们比使用更小的模型更好。

May, 2024

减轻GLU-Based LLMs中由激活峰值引起的量化误差

现代大型语言模型通过架构改进取得了最先进的性能，但仍需要昂贵的计算成本进行推理。本文研究了GLU变体中激活量化的挑战，揭示了过量激活量级引起的严重局部量化误差，提出了两种经验方法来隔离激活峰值，并验证了在最新的GLU变体的大型语言模型中的有效性。

May, 2024

量化语言模型的泛化能力评估：基准、分析与工具箱

使用全面的基准套件，我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响，并且发布了一个模块化设计的工具包来帮助未来的研究。

Jun, 2024

EfficientQAT: 大型语言模型的高效量化感知训练

使用EfficientQAT，一种新的量化技术，可以通过压缩大型语言模型来减少内存需求，同时保持较低的精度损失。

Jul, 2024

量化指令调优大语言模型的综合评估：实验分析至405B

本研究解决了以往对量化大语言模型评估的不足，尤其是针对最近的405B大模型（如Llama 3.1）的缺乏全面分析。通过对多种量化方法的评估，发现较大模型的量化性能普遍优于较小的FP16模型，并且不同量化方法和模型尺寸会显著影响结果，这对未来量化技术的应用具有重要影响。

Sep, 2024