ZipCache：准确高效的键值缓存量化与显著令牌识别

May, 2024

ZipCache：准确高效的键值缓存量化与显著令牌识别

ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification

Yefei He, Luoming Zhang, Weijia Wu, Jing Liu, Hong Zhou...

TL;DRZipCache 是一种用于 LLMs 的准确而高效的 KV 缓存量化方法，通过通道可分离的逐标记量化方案可显著减少量化参数的内存开销，并通过考虑注意力矩阵的下三角特性提出了规范化注意力分数作为识别重要标记的有效度量，以获得更高的压缩比，同时提供了快速生成速度和最小性能损失。

Abstract

kv cache stores key and value states from previous tokens to avoid re-computation, yet it demands substantial storage space, especially for long sequences. Adaptive kv cache →

kv cache compression quantization salient tokens zipcache

发现论文，激发创造

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

无漏洞：通过重要性感知混合精度量化实现可靠的键值缓存压缩

通过实验证明，即使通过减少精度量化保存被清除的 KV 对中的一小部分信息，也能大大恢复引起的退化；同时，对于重要的 KV 对，必须保留较高的精度以确保生成质量。基于这些观察，我们提出了一种可靠的缓存压缩方法，即混合精度 KV 缓存（MiKV），通过将被清除的 KV 对保留在低精度以保留上下文细节，并通过将重要的 KV 对保留在高精度来确保生成质量。与其他基准相比，我们的方法在多种基准和 LLM 骨干上提供了一个最先进的压缩比和性能的权衡。

Feb, 2024

QAQ: LLM KV 缓存的质量自适应量化

提出了 QAQ，一种针对 KV 缓存的质量自适应量化方案，通过集成专用的异常值处理和改进的注意力感知方法，QAQ 在对模型性能几乎没有影响的情况下，实现了 KV 缓存大小最大 10 倍的压缩比，显著减少了部署 LLM 的实际困境，并为更长上下文应用开辟了新的可能性。

Mar, 2024

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

LLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用，KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化，包括：（i）通道关键激活量化，（ii）Rotary 位置嵌入本地化量化，（iii）非均匀 KV 缓存量化，（iv）向量稠密稀疏量化，和（v）Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型，我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化，优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度，而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。

Jan, 2024

SKVQ：用于大语言模型的滑动窗口键值缓存量化

在这篇论文中，我们提出了一种称为 SKVQ 的策略，它通过滑动窗口的键值缓存量化来解决大型语言模型中低比特宽度的键值缓存量化问题，并实现高压缩比和高准确性。

May, 2024

KIVI：一种用于 KV 缓存的无需调节的非对称 2 位量化

通过深入研究大语言模型中关键 - 值缓存的元素分布，我们提出了一个调优无需任何参数的 2 位关键 - 值缓存量化算法，名为 KIVI。KIVI 可以使 Llama (Llama-2), Falcon, 和 Mistral 模型在几乎不减少质量的同时，使用 2.6 倍的峰值内存，从而实现高达 4 倍的批处理大小，进一步提高 2.35 到 3.47 倍的真实大语言模型推理负载吞吐量。

Feb, 2024

KV 缓存每通道 1 位：带耦合量化的高效大语言模型推断

通过 Coupled Quantization (CQ) 技术，我们能够更信息效率地对大模型 (Large Language Models) 的 KV 缓存进行压缩，从而提高效率并保持模型质量。

May, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention 在各种大型语言模型和基准测试中实现了 30% 至 70% 的内存减少和最高 2.2 倍的吞吐量提升。

Apr, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024