IntactKV：通过保持关键标记完整来提高大型语言模型量化

Mar, 2024

IntactKV：通过保持关键标记完整来提高大型语言模型量化

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact

Ruikang Liu, Haoli Bai, Haokun Lin, Yuening Li, Han Gao...

TL;DR该研究揭示了大语言模型中一种被忽视的异常值类型，这些异常值在输入的初始符号上分配了大部分的注意力得分，并且通过提出 IntactKV 的方法从完全精确的模型中无损生成了初始符号的 KV 缓存，进而提升了量化的大语言模型的性能。

Abstract

large language models (LLMs) excel in natural language processing but demand intensive computation. To mitigate this, various quantization methods have been explored, yet they compromise LLM performance. This pap

large language models quantization methods outliers pivot tokens intactkv

发现论文，激发创造

WKVQuant：量化权重和键 / 值缓存以提升大型语言模型的性能

该论文提出了一种针对大型语言模型的量化方法，即使用 WKVQuant 框架对权重和关键 / 值（KV）缓存进行量化，通过过去量化改进注意力计算，并引入二维量化策略处理 KV 缓存分布，结合跨块重构正则化进行参数优化，实验证明 WKVQuant 能够几乎实现与权重 - 激活量化相当的内存节省，并接近仅权重量化的性能。

Feb, 2024

无漏洞：通过重要性感知混合精度量化实现可靠的键值缓存压缩

通过实验证明，即使通过减少精度量化保存被清除的 KV 对中的一小部分信息，也能大大恢复引起的退化；同时，对于重要的 KV 对，必须保留较高的精度以确保生成质量。基于这些观察，我们提出了一种可靠的缓存压缩方法，即混合精度 KV 缓存（MiKV），通过将被清除的 KV 对保留在低精度以保留上下文细节，并通过将重要的 KV 对保留在高精度来确保生成质量。与其他基准相比，我们的方法在多种基准和 LLM 骨干上提供了一个最先进的压缩比和性能的权衡。

Feb, 2024

KIVI：一种用于 KV 缓存的无需调节的非对称 2 位量化

通过深入研究大语言模型中关键 - 值缓存的元素分布，我们提出了一个调优无需任何参数的 2 位关键 - 值缓存量化算法，名为 KIVI。KIVI 可以使 Llama (Llama-2), Falcon, 和 Mistral 模型在几乎不减少质量的同时，使用 2.6 倍的峰值内存，从而实现高达 4 倍的批处理大小，进一步提高 2.35 到 3.47 倍的真实大语言模型推理负载吞吐量。

Feb, 2024

QAQ: LLM KV 缓存的质量自适应量化

提出了 QAQ，一种针对 KV 缓存的质量自适应量化方案，通过集成专用的异常值处理和改进的注意力感知方法，QAQ 在对模型性能几乎没有影响的情况下，实现了 KV 缓存大小最大 10 倍的压缩比，显著减少了部署 LLM 的实际困境，并为更长上下文应用开辟了新的可能性。

Mar, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用，KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化，包括：（i）通道关键激活量化，（ii）Rotary 位置嵌入本地化量化，（iii）非均匀 KV 缓存量化，（iv）向量稠密稀疏量化，和（v）Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化，优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度，而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。

Jan, 2024

添加前缀注意力节点以缓解大型语言模型量化中的激活值异常

提出了一种名为 CushionCache 的方法，通过防止生成问题标记，来促进每个张量的激活量化，成功解决了 LLMs 的激活离群值问题，并为每个张量的激活量化方法提供了显著的性能提升。

Jun, 2024

SKVQ：用于大语言模型的滑动窗口键值缓存量化

在这篇论文中，我们提出了一种称为 SKVQ 的策略，它通过滑动窗口的键值缓存量化来解决大型语言模型中低比特宽度的键值缓存量化问题，并实现高压缩比和高准确性。

May, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

评估量化的大型语言模型

本论文通过对 PTQ 技术在 11 个模型家族的综合评估，系统总结了量化对权重、激活函数和 KV Cache 的影响，提供了应用量化技术的建议，指出了未来的研究方向。

Feb, 2024