Feb, 2024
WKVQuant:量化权重和键/值缓存以提升大型语言模型的性能
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More
TL;DR该论文提出了一种针对大型语言模型的量化方法,即使用WKVQuant框架对权重和关键/值(KV)缓存进行量化,通过过去量化改进注意力计算,并引入二维量化策略处理KV缓存分布,结合跨块重构正则化进行参数优化,实验证明WKVQuant能够几乎实现与权重-激活量化相当的内存节省,并接近仅权重量化的性能。