May, 2024

基于矩阵分解的数据无关低位量化用于KV缓存压缩的解锁

TL;DR通过基于张量分解的新型无数据量化技术DecoQuant,我们成功压缩了大型语言模型中的KV缓存,提高了推理效率并保持相当的生成质量,并实现了高精度表示和低位量化的有机结合。