May, 2024

基于矩阵分解的数据无关低位量化用于 KV 缓存压缩的解锁

TL;DR通过基于张量分解的新型无数据量化技术 DecoQuant,我们成功压缩了大型语言模型中的 KV 缓存,提高了推理效率并保持相当的生成质量,并实现了高精度表示和低位量化的有机结合。