Aug, 2024

NACL:一种通用有效的长语言模型推理时 KV 缓存驱逐框架

TL;DR本研究针对大型语言模型在推理时面临的KV缓存管理问题,提出了NACL框架,旨在优化长上下文的缓存驱逐过程。NACL通过结合准确的注意力得分统计和多样化的随机驱逐策略,显著改善了短文本和长文本任务的性能,分别提高了80%和76%的准确率,同时将KV缓存减少了50%以上,且性能保持在95%以上。