特征关注：低秩空间中的关注用于KV缓存压缩

Aug, 2024

特征关注：低秩空间中的关注用于KV缓存压缩

Eigen Attention: Attention in Low-Rank Space for KV Cache Compression

Utkarsh Saxena, Gobinda Saha, Sakshi Choudhary, Kaushik Roy

TL;DR本研究解决了大型语言模型中长上下文长度和大批量处理过程中KV缓存导致的内存瓶颈问题。提出的特征关注方法通过在低秩空间中执行关注操作，显著减少了KV缓存的内存开销，并且与现有的缓存压缩技术可协同使用。实验结果表明，该方法能够将KV缓存大小减少最多40%，并减少注意力操作延迟最多60%，性能下降极小。

Abstract

Large language models (LLMs) represent a groundbreaking advancement in the domain of natural language processing due to their impressive reasoning abilities. Recently, there has been considerable interest in increasing the context lengths for these models to enhance their applicability to complex tasks. However, at long context lengths and large batch sizes,

发现论文，激发创造

模型指导的内容丢弃方法：用于大型语言模型的自适应KV缓存压缩

通过自适应KV缓存压缩的插拔式方法，我们引入了一种减少大型语言模型（LLM）生成推理内存占用的方法。通过有针对性的分析注意力模块的内在结构，我们构建自适应KV缓存：针对局部上下文的注意力头强调接触范围短的上下文，针对特殊标记的注意力头中心化的丢弃非特殊标记，只有广泛关注所有标记的注意力头才使用标准KV缓存。此外，通过轻量级的注意力分析引导自适应KV缓存的构建，FastGen不需要资源密集的微调或重新训练。在各种场景的实验中，FastGen在GPU内存消耗方面显著减少，同时几乎没有生成质量损失。我们将发布用于重现的代码和兼容的CUDA内核。

Oct, 2023

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。

Apr, 2024

KV缓存每通道1位：带耦合量化的高效大语言模型推断

通过Coupled Quantization (CQ)技术，我们能够更信息效率地对大模型(Large Language Models)的KV缓存进行压缩，从而提高效率并保持模型质量。

May, 2024

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键-值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

Loki: 用于高效稀疏注意力的低秩键

我们提出了一种基于低维空间计算注意力的稀疏注意力方法Loki，该方法在推理阶段可以更好地保持模型的效力，并通过减少数据移动和计算成本来加快注意力计算。

Jun, 2024

LLM中高效压缩KV头

在本文中，我们探索了Key-Value缓存的低秩特性，并提出了一种压缩Key-Value头部的新方法，该方法在最小化压缩误差的同时保持与原始大语言模型相当的性能，为在资源受限环境中更高效的大语言模型部署提供了一种有前途的方向。

Jun, 2024

基于L2范数的高效KV缓存压缩策略

基于对注意力分配模式和键嵌入进行分析，我们提出了一种基于键嵌入的压缩策略，证实可在不降低准确性的情况下，将关键值(KV)缓存大小减少50%（在语言模型和针对性查询任务中）和90%（在密码检索任务中）。

Jun, 2024

超越KV缓存：用于高效LLMs的共享注意力

通过直接在多个层之间共享计算的注意力权重，利用传统注意力机制带来的计算和存储资源消耗问题，这篇论文介绍了一种新型的共享注意力（Shared Attention）机制，实现在资源有限环境下提高大型语言模型（LLMs）的效率。

Jul, 2024

ThinK: 通过查询驱动的剪枝实现更薄的键缓存

本研究针对大型语言模型在处理长序列时内存和计算成本高的问题，通过探讨键值缓存中的冗余，提出了名为ThinK的查询依赖性缓存剪枝方法。该方法在选择性剪除不重要的通道的同时，保持或提高了模型的准确性，并将内存成本降低超过20%。

Jul, 2024

KV-压缩：基于分页的键值缓存压缩及其可变压缩率

本研究解决了大型语言模型长上下文推理中内存资源分配效率低下的问题。通过引入一种新区块的分页注意力框架KV-压缩，实现了按理论压缩率降低键值缓存的内存占用，从而显著提升了长上下文请求的并发处理能力。实验结果显示，该方法在多个基准测试中达到最先进的性能，并能够实现高达8倍的压缩率，而对模型性能影响微乎其微。

Sep, 2024