Jan, 2024

KVQuant: 通过 KV 缓存量化实现 1000 万上下文长度的 LLM 推断

TL;DRLLMs 在大文本分析和摘要等需要大上下文窗口的应用中得到越来越广泛的应用,KV 缓存激活成为推断过程中存储器占用的主要贡献者。本研究通过引入新颖的方法对缓存的 KV 激活进行量化,包括:(i)通道关键激活量化,(ii)Rotary 位置嵌入本地化量化,(iii)非均匀 KV 缓存量化,(iv)向量稠密稀疏量化,和(v)Q-Norm。通过将这些方法应用于 LLaMA、LLaMA-2 和 Mistral 模型,我们在 Wikitext-2 和 C4 数据集上使用 3 位量化实现了小于 0.1 的困惑度退化,优于现有方法。我们的方法使得在单个 A100-80GB GPU 上可以为 LLaMA-7B 模型提供长达 100 万的上下文长度,而在 8-GPU 系统上可以提供长达 1000 万的上下文长度。