关于量化大型语言模型的可压缩性

Mar, 2024

关于量化大型语言模型的可压缩性

On the Compressibility of Quantized Large Language Models

Yu Mao, Weilan Wang, Hongchao Du, Nan Guan, Chun Jason Xue

TL;DR通过应用数据压缩技术来减少数据传输，从而提高在内存受限设备上量化化的大型语言模型推理的速度。

Abstract

Deploying large language models (LLMs) on edge or mobile devices offers significant benefits, such as enhanced data privacy and real-time processing capabilities. However, it also faces critical challenges due to the substantial memory requirement of LLMs. →

large language models quantization memory-constrained devices data compression techniques inference latency

发现论文，激发创造

大型语言模型的模型压缩综述

该论文提供了针对大型语言模型的模型压缩技术的综述调查，涵盖量化、修剪、知识蒸馏等各种方法，并探讨了压缩后的大型语言模型的基准策略和评估指标，旨在促进效率和实际应用的提升，为领域的未来发展奠定了基础。

Aug, 2023

大型语言模型的量化策略的全面评估

对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支持。

Feb, 2024

MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench 评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动 AI 研究和部署。

Jun, 2024

SqueezeLLM：紧密稀疏量化

通过引入 SqueezeLLM 后训练的量化框架，该框架不仅实现了高达 3 位的无损压缩，还在相同的内存约束下实现了更高的量化性能，可以将羊毛出在羊身上，仿佛神器一般。

Jun, 2023

LLM-QBench: 大型语言模型后训练量化最佳实践基准测试

探索量化大型语言模型的最佳实践，平衡性能与计算效率。通过基准测试和实验，提出了与标定数据、量化算法和量化方案相对应的三个关键点，并构建了最佳的 LLM PTQ 流水线。

May, 2024

可部署的 LLM 压缩加速之旅

通过硬件为中心的方法，我们的压缩方法在硬件加速的基础上构建了一种新的 W4A8 内核实现，具有量化策略的综合配方，通过广泛的实验证明了我们的 W4A8 方法对于 Hugging Face FP16 推断的实际加速效果为 4 倍，对于 TensorRT-LLM 推断引擎的 FP16 加速效果为 2.23 倍，对于 TensorRT-LLM 推断引擎的 INT8 加速效果为 1.45 倍，且不会对性能造成实质性的损害。

Nov, 2023

模型压缩性能评估和优化的综合研究：传统深度学习与大型语言模型的联系

通过量化和修剪技术对各种训练好的深度学习模型进行压缩，并探讨了大型语言模型在量化和低秩适应后的性能，讨论了挑战和未来工作。

Jul, 2024

压缩的成本：研究压缩对语言模型参数化知识的影响

压缩大型语言模型（LLM）包含数十亿参数，可以提供更快的推理速度，更小的内存占用，并支持本地部署。我们通过对多个模型系列（ENCODER、ENCODER-DECODER 和 DECODER）使用 LAMA 和 LM-HARNESS 基准进行全面分析，以系统量化常用压缩技术对模型性能的影响，特别关注涉及参数化知识的权衡，旨在为从业人员提供实用的见解，帮助他们在压缩决策时做出明智的选择。

Dec, 2023

紧凑 AI：使用量子启发的张量网络对大型语言模型进行极致压缩

该研究介绍了一种创新的 LLM 压缩方法，使用量子启发的张量网络来压缩模型的相关空间，实现对 LLaMA-2 7B 模型的压缩，使其仅保留原始大小的 30%，并在经过简要分布式重新训练后恢复原始准确率的 90% 以上。

Jan, 2024

大型语言模型的量化对置信度的影响

近期的研究引入了通过事后训练量化或低位权重表示来进行大语言模型（LLMs）有效压缩的技术。尽管量化权重提供了存储效率和更快推理的优势，但现有研究指出，量化可能损害性能并加剧 LLMs 中的偏见。本研究通过考虑语言模型类型和规模等因素，调查了量化模型的置信度和校准情况，揭示了通过 GPTQ 进行 4 位量化会导致对真实标签置信度的降低，同时不同语言模型之间观察到的影响差异。另外，本研究观察到在不同规模下对置信度影响的波动。最后，我们提出了一种基于置信度水平的量化损失解释，表明量化不成比例地影响了一开始完整模型置信度较低的样本。

May, 2024