Aug, 2024

特征关注:低秩空间中的关注用于KV缓存压缩

TL;DR本研究解决了大型语言模型中长上下文长度和大批量处理过程中KV缓存导致的内存瓶颈问题。提出的特征关注方法通过在低秩空间中执行关注操作,显著减少了KV缓存的内存开销,并且与现有的缓存压缩技术可协同使用。实验结果表明,该方法能够将KV缓存大小减少最多40%,并减少注意力操作延迟最多60%,性能下降极小。