May, 2024

SKVQ:用于大语言模型的滑动窗口键值缓存量化

TL;DR在这篇论文中,我们提出了一种称为 SKVQ 的策略,它通过滑动窗口的键值缓存量化来解决大型语言模型中低比特宽度的键值缓存量化问题,并实现高压缩比和高准确性。