Apr, 2025
KeepKV:消除KV缓存压缩中的输出扰动以提高大规模语言模型推理效率
KeepKV: Eliminating Output Perturbation in KV Cache Compression for
Efficient LLMs Inference
TL;DR本研究针对大型语言模型推理中KV缓存不断膨胀的问题,提出了一种新颖的自适应KV缓存合并方法KeepKV,以消除输出扰动并确保高效性能。通过引入选举票机制和零推理扰动合并方法,KeepKV能够保持注意力一致性并补偿合并过程中产生的注意力损失,从而在显著压缩的缓存中保留重要的上下文信息。