LLM 中高效压缩 KV 头

Jun, 2024

Effectively Compress KV Heads for LLM

Hao Yu, Zelan Yang, Shen Li, Yong Li, Jianxin Wu

TL;DR在本文中，我们探索了 Key-Value 缓存的低秩特性，并提出了一种压缩 Key-Value 头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Abstract

The advent of pre-trained large language models (LLMs) has revolutionized various natural language processing tasks. These models predominantly employ an auto-regressive decoding mechanism that utilizes Key-Value (KV) caches to eliminate redundant calculations for previous tokens. Neve

large language models key-value caches multi-query attention grouped-query attention compression

发现论文，激发创造

MLKV：用于内存高效 Transformer 解码的多层键值头

通过多层键 - 值共享方式，将键值缓存扩展到变压器层，进一步降低内存使用量，提高变压器模型在大规模场景中的效率。

Jun, 2024

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键 - 值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

使用跨层注意力减小 Transformer 键 - 值缓存大小

使用交叉层注意力（CLA）设计可以进一步减小关键 - 值缓存的大小，而几乎保持与未修改 MQA 相同的准确性，在从头开始训练 1B 和 3B 参数模型的实验中证明 CLA 在内存 / 准确性权衡方面提供了帕累托改进，使得推断能处理比传统 MQA 更长的序列长度和更大的批次大小

May, 2024

QCQA：质量和容量感知的分组查询注意力

提出了一种考虑质量和能力的查询头分组的方法，用于在自回归大型语言模型推断中进行关键值缓存优化。该方法能够以较少的关键值缓存需求达到与其他方法相似的准确性，并且在细调后较其他方法具有较高的准确性。

Jun, 2024

QAQ: LLM KV 缓存的质量自适应量化

提出了 QAQ，一种针对 KV 缓存的质量自适应量化方案，通过集成专用的异常值处理和改进的注意力感知方法，QAQ 在对模型性能几乎没有影响的情况下，实现了 KV 缓存大小最大 10 倍的压缩比，显著减少了部署 LLM 的实际困境，并为更长上下文应用开辟了新的可能性。

Mar, 2024

SnapKV: LLM 在生成之前了解您要寻找的内容

SnapKV 是一种创新且无需微调的方法，它通过选择每个注意力头的重要键值位置来高效地减小键值存储缓存的大小，从而在处理长输入序列时显著降低了计算开销和内存占用，同时保持了与基准模型相当的性能。

Apr, 2024

模型指导的内容丢弃方法：用于大型语言模型的自适应 KV 缓存压缩

通过自适应 KV 缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应 KV 缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准 KV 缓存。此外，通过轻量级的注意力分析引导自适应 KV 缓存的构建，FastGen 不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen 在 GPU 内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的 CUDA 内核。

Oct, 2023

LoMA：无损压缩的内存注意力

提出了一种新方法，即无损压缩记忆关注（LoMA）方法，可以根据一组压缩比将信息无损地压缩到特殊记忆令牌 KV 对中，实现资源消耗的减少，并取得了显著的结果。

Jan, 2024

无漏洞：通过重要性感知混合精度量化实现可靠的键值缓存压缩

通过实验证明，即使通过减少精度量化保存被清除的 KV 对中的一小部分信息，也能大大恢复引起的退化；同时，对于重要的 KV 对，必须保留较高的精度以确保生成质量。基于这些观察，我们提出了一种可靠的缓存压缩方法，即混合精度 KV 缓存（MiKV），通过将被清除的 KV 对保留在低精度以保留上下文细节，并通过将重要的 KV 对保留在高精度来确保生成质量。与其他基准相比，我们的方法在多种基准和 LLM 骨干上提供了一个最先进的压缩比和性能的权衡。

Feb, 2024

GQA：从多头检查点训练广义多查询 Transformer 模型

通过增加中间的键值头数目，我们提出了一种组合查询注意力 (GQA) 的方法，它是多查询注意力 (MQA) 的推广，能够实现训练速度和质量之间的平衡。

May, 2023