May, 2024
基于矩阵分解的数据无关低位量化用于 KV 缓存压缩的解锁
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression
Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Yipeng Ma, Tao Wang...
TL;DR通过基于张量分解的新型无数据量化技术 DecoQuant,我们成功压缩了大型语言模型中的 KV 缓存,提高了推理效率并保持相当的生成质量,并实现了高精度表示和低位量化的有机结合。