Feb, 2025
大语言模型在KV缓存压缩下能否保持基本能力?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
TL;DR本研究探讨了KV缓存压缩对大语言模型基本能力的影响,填补了这一领域的研究空白。通过对多种任务的实证研究,我们发现不同的缓存压缩方法在特定任务上表现出性能下降,尤其是算术推理任务,压缩对其影响尤为显著。我们提出了一种新颖的压缩方法ShotKV,能在激进的压缩下实现长上下文生成任务的9%-18%的性能提升。