Oct, 2024

LoRC:基于渐进压缩策略的低秩压缩用于大型语言模型的KV缓存

TL;DR本研究解决了大型语言模型(LLMs)在KV缓存方面的内存消耗问题,该问题随着序列长度和批处理大小线性增长。提出了一种低秩近似KV权重矩阵的新方法,通过渐进压缩策略在不需要重新训练模型的情况下有效减小KV缓存的内存占用。大量实验表明,此方法显著降低了GPU内存使用,同时保持了性能。