Mar, 2025
大型语言模型知道如何丢弃:自注意力引导的键值缓存驱逐以实现高效的长文本推理
LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for
Efficient Long-Context Inference
TL;DR本研究解决了大型语言模型在长文本推理中因键值缓存和计算复杂性导致的内存和延迟瓶颈问题。通过发现长文本任务中的注意力稀疏性,提出了一种新的自注意力引导的缓存驱逐方法(SAGE-KV),显著提高了内存效率并保持了与完整注意力相当的准确性。实验结果表明,SAGE-KV在多个长文本模型上实现了4倍的内存效率提升和更优的准确性。