Jul, 2024

RazorAttention:通过检索头实现高效的KV缓存压缩

TL;DR本研究解决了长上下文语言模型中关键值(KV)缓存的内存和计算需求问题。提出了一种名为RazorAttention的新型缓存压缩技术,该方法采用了独立的缓存策略,有效保留了重要的检索头信息并减少了70%以上的KV缓存大小,同时保证了性能的稳定性。该方法兼容FlashAttention,为大语言模型的推理效率提供了一种高效且便捷的解决方案。