PyramidKV: 基于金字塔信息漏斗的动态 KV 缓存压缩

Jun, 2024

PyramidKV: 基于金字塔信息漏斗的动态 KV 缓存压缩

PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling

Zefan Cai., Yichi Zhang, Bofei Gao, Tianyu Liu, Keming Lu...

TL;DR在这项研究中，我们调查了大语言模型内部的基于注意力的信息流是否通过明显的模式进行大范围长文本处理。我们的观察揭示了大语言模型通过金字塔信息漏斗聚合信息，注意力在较低的层级中广泛散布，逐渐在特定上下文中巩固，并最终集中于关键标记（即大规模激活或注意力汇聚）在较高的层级。在这些洞察的基础上，我们开发了一个新颖且有效的 KV 缓存压缩方法 PyramidKV。该方法动态调整不同层级上的 KV 缓存大小，分配较低层级较多的缓存，而较高层级较少，与维护统一 KV 缓存大小的传统方法有所不同。我们根据 LongBench 基准评估的实验表明，PyramidKV 与完整 KV 缓存模型的性能相当，但只保留了 12% 的 KV 缓存，因此显著减少了内存使用。在强调内存效率的情景下，仅维护 0.7% 的 KV 缓存，PyramidKV 超越其他 KV 缓存压缩技术，在 TREC 上实现了高达 20.5 个绝对准确度的提升。

Abstract

In this study, we investigate whether attention-based information flow inside large language models (LLMs) is aggregated through noticeable patterns for long context processing. Our observations reveal that LLMs

attention-based information flow language models pyramidal information funneling kv cache compression memory usage

发现论文，激发创造

金字塔推理：金字塔 KV 缓存压缩用于高吞吐率 LLM 推理

通过压缩键值缓存并保留关键上下文，提出了一种名为 PyramidInfer 的方法，以提高大型语言模型在 GPU 内存使用和推理速度方面的可扩展性。实验结果显示 PyramidInfer 相比 Accelerate 方法，在增加 2.2 倍的吞吐量的同时减少了 54% 的 GPU 内存占用。

May, 2024

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

LLM 中高效压缩 KV 头

在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了 SqueezeAttention 来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention 在各种大型语言模型和基准测试中实现了 30% 至 70% 的内存减少和最高 2.2 倍的吞吐量提升。

Apr, 2024

大型语言模型高效推理的层压化 KV 缓存

提出了一种新的方法，只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明，该方法的推理吞吐量比标准 Transformer 高 26 倍，同时在语言建模和下游任务中具有竞争性能。此外，该方法与现有的 Transformer 节省内存技术正交，因此可以轻松将它们与我们的模型集成，进一步提高推理效率。

May, 2024

MLKV：用于内存高效 Transformer 解码的多层键值头

通过多层键 - 值共享方式，将键值缓存扩展到变压器层，进一步降低内存使用量，提高变压器模型在大规模场景中的效率。

Jun, 2024

QAQ: LLM KV 缓存的质量自适应量化

提出了 QAQ，一种针对 KV 缓存的质量自适应量化方案，通过集成专用的异常值处理和改进的注意力感知方法，QAQ 在对模型性能几乎没有影响的情况下，实现了 KV 缓存大小最大 10 倍的压缩比，显著减少了部署 LLM 的实际困境，并为更长上下文应用开辟了新的可能性。

Mar, 2024

基于 L2 范数的高效 KV 缓存压缩策略

基于对注意力分配模式和键嵌入进行分析，我们提出了一种基于键嵌入的压缩策略，证实可在不降低准确性的情况下，将关键值 (KV) 缓存大小减少 50%（在语言模型和针对性查询任务中）和 90%（在密码检索任务中）。

Jun, 2024