May, 2024

KV 缓存每通道 1 位:带耦合量化的高效大语言模型推断

TL;DR通过 Coupled Quantization (CQ) 技术,我们能够更信息效率地对大模型 (Large Language Models) 的 KV 缓存进行压缩,从而提高效率并保持模型质量。