量化 LLM 在规模和精度方面的能力

May, 2024

量化 LLM 在规模和精度方面的能力

Quantifying the Capabilities of LLMs across Scale and Precision

Sher Badshah, Hassan Sajjad

TL;DR通过对模型规模和量化的综合评估，发现在各种任务中，规模较大的模型通常优于规模较小的模型，同时大规模模型对于精度降低有很好的韧性，可在较小的内存要求下保持高准确性，因此它们比使用更小的模型更好。

Abstract

scale is often attributed as one of the factors that cause an increase in the performance of llms, resulting in models with billion and trillion parameters. One of the limitations of such large models is the high

scale llms quantization model performance resource-constrained scenarios

发现论文，激发创造

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

了解后训练量化对大规模语言模型的影响

大型语言模型中的参数数量、量化、超参数和推理速度的研究分析

Sep, 2023

4 位精度的必要性：k 位推断缩放定律

研究语言模型在压缩模型时的精度与模型大小之间的平衡，发现在总模型位和零 - shot 准确度方面，{4 位} 精度几乎普遍最优。

Dec, 2022

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的 LLM PTQ 流水线。

May, 2024

量化语言模型的泛化能力评估：基准、分析与工具箱

使用全面的基准套件，我们探索了大规模语言模型在量化过程中的泛化能力以及校准数据分布对其影响，并且发布了一个模块化设计的工具包来帮助未来的研究。

Jun, 2024

关于量化大型语言模型的可压缩性

通过应用数据压缩技术来减少数据传输，从而提高在内存受限设备上量化化的大型语言模型推理的速度。

Mar, 2024

量子化大型语言模型中是否存在突现能力：一项实证研究

本文研究了量化对语言模型的影响，重点关注了量化对模型的新兴能力、上下文学习、思维链推理和指令跟随等的影响，实验证明 4 位量化模型仍然存在这些新兴能力，而 2 位模型在这些能力测试中遭受严重性能下降，通过模型微调和特定分析方法，本文揭示了量化对新兴能力影响的一系列重要发现，并为极低位量化提供了思路。

Jul, 2023

大型语言模型的极端压缩：基于加性量化

该研究中，我们将经典的多码本量化方法应用于语言模型的压缩，实现了对开放式大规模语言模型的极端压缩，提高了在给定压缩预算下的准确性。

Jan, 2024

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024

基于量化的 LLaMa 模型在巴西中学考试上的基准测试

对 7 和 13 亿规模的大型语言模型 (Large Language Models, LLMs) 进行了性能评估，经过量化处理后在家用硬件上运行。通过包含 1,006 个巴西国家中学考试 (ENEM) 问题的数据库进行模型效果评估，最佳模型对原文葡萄牙语问题和其英文翻译的准确性分别达到约 46% 和 49%。此外，通过执行时间衡量模型的计算效率，7 和 13 亿规模的 LLMs 分别在装备 AMD Ryzen 5 3600x 处理器的机器上平均需要大约 20 秒和 50 秒来处理查询。

Sep, 2023