LoRC：基于渐进压缩策略的低秩压缩用于大型语言模型的KV缓存

Oct, 2024

LoRC：基于渐进压缩策略的低秩压缩用于大型语言模型的KV缓存

LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy

Rongzhi Zhang, Kuang Wang, Liyuan Liu, Shuohang Wang, Hao Cheng...

TL;DR本研究解决了大型语言模型（LLMs）在KV缓存方面的内存消耗问题，该问题随着序列长度和批处理大小线性增长。提出了一种低秩近似KV权重矩阵的新方法，通过渐进压缩策略在不需要重新训练模型的情况下有效减小KV缓存的内存占用。大量实验表明，此方法显著降低了GPU内存使用，同时保持了性能。

Abstract

The Key-Value (KV) cache is a crucial component in serving transformer-based autoregressive Large Language Models (LLMs), enabling faster inference by storing previously computed KV vectors. However, its memory consumption scales linearly with sequence length and batch size, posing a s

发现论文，激发创造

模型指导的内容丢弃方法：用于大型语言模型的自适应KV缓存压缩

通过自适应KV缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应KV缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准KV缓存。此外，通过轻量级的注意力分析引导自适应KV缓存的构建，FastGen不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen在GPU内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的CUDA内核。

Oct, 2023

无漏洞:通过重要性感知混合精度量化实现可靠的键值缓存压缩

通过实验证明，即使通过减少精度量化保存被清除的KV对中的一小部分信息，也能大大恢复引起的退化；同时，对于重要的KV对，必须保留较高的精度以确保生成质量。基于这些观察，我们提出了一种可靠的缓存压缩方法，即混合精度KV缓存（MiKV），通过将被清除的KV对保留在低精度以保留上下文细节，并通过将重要的KV对保留在高精度来确保生成质量。与其他基准相比，我们的方法在多种基准和LLM骨干上提供了一个最先进的压缩比和性能的权衡。

Feb, 2024

GEAR: 基于高效 KV 缓存压缩的近无损低长度模型生成推断算法

提出了GEAR，一种高效的KV缓存压缩框架，实现了几乎无损的高压缩比。相比其他方法，GEAR在减少峰值内存大小的同时，实现了高达2.38倍的吞吐量提升。

Mar, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。

Apr, 2024

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键-值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

LLM中高效压缩KV头

在本文中，我们探索了Key-Value缓存的低秩特性，并提出了一种压缩Key-Value头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

降低成本：大型语言模型KV缓存消耗优化方法综述

本研究针对大型语言模型在处理长文本时效率低下的问题，探讨了KV缓存的优化方法。通过分析不同的KV缓存压缩策略，本文提供了在预训练、部署和推理阶段的优化方案，从而为大型语言模型的未来发展提供了新的见解和方向。

Jul, 2024

CSKV：针对长上下文场景中键值缓存的训练高效通道缩减

本研究解决了大语言模型在长上下文任务中键值缓存带来的内存开销问题。提出的CSKV方法通过分析通道维度的冗余，采用低秩分解技术，并引入双分支键值缓存架构，以较低的训练成本实现缓存压缩。实验表明，该方法能将内存开销降低80%，而且能够与量化技术结合，实现高达95%的压缩率。

Sep, 2024

CSKV：长上下文场景中训练高效的KV缓存通道缩减

本研究解决了长上下文任务中关键值（KV）缓存带来的大内存开销问题。通过引入CSKV技术，利用通道维度的冗余性并进行低秩分解，从而实现KV缓存的压缩，同时引入双分支KV缓存以保持模型性能。研究结果表明，CSKV能够将KV缓存的内存开销减少80%，并在与量化结合时实现高达95%的压缩比。

Sep, 2024

KV-压缩：基于分页的键值缓存压缩及其可变压缩率

本研究解决了大型语言模型长上下文推理中内存资源分配效率低下的问题。通过引入一种新区块的分页注意力框架KV-压缩，实现了按理论压缩率降低键值缓存的内存占用，从而显著提升了长上下文请求的并发处理能力。实验结果显示，该方法在多个基准测试中达到最先进的性能，并能够实现高达8倍的压缩率，而对模型性能影响微乎其微。

Sep, 2024