ThinK: 通过查询驱动的剪枝实现更薄的键缓存

Jul, 2024

ThinK: 通过查询驱动的剪枝实现更薄的键缓存

ThinK: Thinner Key Cache by Query-Driven Pruning

Yuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu...

TL;DR本研究针对大型语言模型在处理长序列时内存和计算成本高的问题，通过探讨键值缓存中的冗余，提出了名为ThinK的查询依赖性缓存剪枝方法。该方法在选择性剪除不重要的通道的同时，保持或提高了模型的准确性，并将内存成本降低超过20%。

Abstract

Large Language Models (LLMs) have revolutionized the field of natural language processing, achieving unprecedented performance across a variety of applications by leveraging increased model sizes and sequence lengths. However, the associated rise in computational and memory costs poses

发现论文，激发创造

使用KV缓存压缩合成循环以实现高效的LLM推理

通过整合一个（几乎不消耗）常量大小的缓存与基于驱逐策略的缓存方法，提出了LESS，以在过去的解码步骤中查询所有标记。它在时间上保留信息的能力可在多种任务中展现出优点，帮助降低性能差距和提高效率。

Feb, 2024

SqueezeAttention: 通过分层最佳预算在 LLM 推理中对 KV-Cache 进行 2D 管理

通过确定关注层的重要性，我们提出了SqueezeAttention来精确优化动态分配关键值缓存的预算，并结合三种代表性的标记稀疏化算法来压缩每个层的关键值缓存。通过从序列和层两个维度进行优化，SqueezeAttention在各种大型语言模型和基准测试中实现了30%至70%的内存减少和最高2.2倍的吞吐量提升。

Apr, 2024

序列秘密揭示舍弃的内容

本文介绍了一种优化大语言模型中键值缓存的方法，通过动态保留重要的键值对来减少推理过程中键值缓存的内存使用量高达70%，而不会引起性能明显下降。

Apr, 2024

MiniCache：大型语言模型的键值缓存深度维度压缩

通过对大型语言模型的键-值缓存进行压缩，以降低内存占用，并提高高吞吐量和优化压缩比率。

May, 2024

Quest: 查询感知稀疏性用于高效长上下文LLM推断

长上下文大语言模型的推理速度下降的问题可以通过使用查询感知的KV缓存选择算法来加速自注意力机制，该算法通过仅加载前K个关键KV缓存页面来显著提高自注意力的速度。

Jun, 2024

基于L2范数的高效KV缓存压缩策略

基于对注意力分配模式和键嵌入进行分析，我们提出了一种基于键嵌入的压缩策略，证实可在不降低准确性的情况下，将关键值(KV)缓存大小减少50%（在语言模型和针对性查询任务中）和90%（在密码检索任务中）。

Jun, 2024

超越KV缓存：用于高效LLMs的共享注意力

通过直接在多个层之间共享计算的注意力权重，利用传统注意力机制带来的计算和存储资源消耗问题，这篇论文介绍了一种新型的共享注意力（Shared Attention）机制，实现在资源有限环境下提高大型语言模型（LLMs）的效率。

Jul, 2024

NACL：一种通用且有效的长文本推理时 KV 缓存驱逐框架

该研究针对大型语言模型在推理过程中KV缓存造成的高内存消耗问题，提出了NACL框架，通过单步操作优化缓存驱逐过程。研究表明，NACL显著提高了短文本和长文本任务的性能，分别提升了80%和76%，同时减少了最多50%的KV缓存使用，且保持了95%以上的性能。

Aug, 2024

NACL：一种通用有效的长语言模型推理时 KV 缓存驱逐框架

本研究针对大型语言模型在推理时面临的KV缓存管理问题，提出了NACL框架，旨在优化长上下文的缓存驱逐过程。NACL通过结合准确的注意力得分统计和多样化的随机驱逐策略，显著改善了短文本和长文本任务的性能，分别提高了80%和76%的准确率，同时将KV缓存减少了50%以上，且性能保持在95%以上。

Aug, 2024

特征关注：低秩空间中的关注用于KV缓存压缩

本研究解决了大型语言模型中长上下文长度和大批量处理过程中KV缓存导致的内存瓶颈问题。提出的特征关注方法通过在低秩空间中执行关注操作，显著减少了KV缓存的内存开销，并且与现有的缓存压缩技术可协同使用。实验结果表明，该方法能够将KV缓存大小减少最多40%，并减少注意力操作延迟最多60%，性能下降极小。

Aug, 2024